Memantau dari Enam Lokasi Geografi Sekaligus dan Jika Hanya Satu Gagal Saya Tahu Persis di Mana Masalahnya
Pagi itu dimulai dengan tiket dukungan dari pelanggan di Singapura mengatakan situs web mereka tidak berfungsi. Dashboard pemantauan, yang berjalan dari satu server di Frankfurt, menunjukkan semuanya hijau. Semua pemeriksaan lulus. Waktu respons normal. Situs itu aktif. Kecuali tidak aktif, setidaknya tidak untuk siapa pun yang merutekan melalui jalur jaringan Asia tertentu. Masalahnya ternyata adalah masalah perutean regional di penyedia upstream yang mempengaruhi lalu lintas dari Asia Tenggara sambil meninggalkan akses Eropa dan Amerika Utara sama sekali tidak terpengaruh. Sistem pemantauan, setia memeriksa dari satu titik pandang di Jerman, tidak memiliki cara untuk mendeteksi masalah yang tidak dapat dilihat dari mana ia berdiri.
Insiden ini, dan beberapa insiden serupa yang terjadi selama tahun berikutnya, menunjukkan batasan fundamental pemantauan lokasi tunggal yang tampaknya jelas dalam pandangan ke belakang tetapi sangat mudah diabaikan. Internet bukan jaringan seragam di mana semua jalur menuju tujuan yang sama melalui infrastruktur yang sama. Ini adalah jaringan sistem otonomi yang saling terhubung, perjanjian peering, node tepi CDN, dan pemecah DNS yang menciptakan pengalaman berbeda bagi pengguna di wilayah geografis yang berbeda. Situs web dapat sepenuhnya dapat diakses dari Eropa sambil secara bersamaan tidak dapat dijangkau dari bagian Asia, berfungsi penuh dari Amerika Utara sambil mengalami kehilangan paket dari Amerika Selatan, dan cepat dari satu kota sambil lambat dari kota lain di negara yang sama.
Solusi yang diimplementasikan oleh uptime.yeb.to adalah pemantauan simultan dari enam lokasi geografis yang tersebar di beberapa benua. Setiap pemeriksaan berjalan dari semua enam lokasi dalam jendela waktu yang sama, dan hasilnya dibandingkan untuk menentukan apakah masalahnya bersifat global atau regional. Ketika keenam lokasi melaporkan kegagalan, situs benar-benar tidak aktif di mana-mana. Ketika satu atau dua lokasi melaporkan kegagalan sementara yang lain menunjukkan kesuksesan, masalahnya bersifat regional, dan lokasi yang gagal segera mempersempit di mana masalahnya terletak. Triangulasi geografis ini mengubah pemantauan dari sinyal biner "aktif atau tidak aktif" menjadi peta ketersediaan yang bernuansa yang mencerminkan cara internet benar-benar bekerja.
Mengapa Pemantauan Lokasi Tunggal Menciptakan Titik Buta Berbahaya
Sebagian besar layanan pemantauan waktu aktif, termasuk banyak layanan yang terkenal, secara default memeriksa dari satu lokasi atau memungkinkan pengguna untuk memilih satu wilayah pemantauan utama. Pendekatan ini bekerja sempurna untuk mendeteksi pemadaman lengkap di mana server asal tidak aktif dan tidak ada siapa pun di mana pun yang dapat mengakses situs. Untuk kegagalan bencana ini, satu probe cukup karena masalahnya bersifat universal. Tetapi kegagalan server lengkap hanyalah satu kategori pemadaman, dan semakin jarang itu adalah yang paling umum. Infrastruktur web modern, dengan lapisan CDN, penyeimbang beban, DNS failover, dan caching tepi, telah membuat pemadaman total menjadi langka sambil membuat kegagalan parsial, regional, dan terputus-putus lebih sering.
Masalah terkait CDN adalah sumber paling umum dari perbedaan regional. Jaringan pengiriman konten beroperasi dengan caching konten di server tepi yang didistribusikan di seluruh dunia, dan setiap server tepi melayani pengunjung yang secara geografis paling dekat dengannya. Ketika node tepi CDN di wilayah tertentu mengalami masalah, baik kegagalan perangkat keras, salah konfigurasi, atau kelebihan kapasitas, pengunjung yang dirutekan ke node tepi tersebut mengalami penurunan kinerja atau ketidaktersediaan lengkap sementara pengunjung yang dirutekan ke node tepi yang sehat tidak melihat masalah. Monitor satu lokasi yang kebetulan dirutekan ke node tepi yang sehat akan melaporkan semuanya normal sementara seluruh wilayah pengunjung terpengaruh.
Masalah propagasi DNS menciptakan kelas kegagalan regional lainnya. Ketika catatan DNS diperbarui, perubahan menyebarkan melalui infrastruktur DNS global dengan kecepatan berbeda tergantung pada nilai TTL, perilaku caching resolver, dan jalur resolusi spesifik yang diikuti setiap wilayah. Selama jendela propagasi, beberapa wilayah dapat menyelesaikan domain ke alamat IP lama sementara yang lain menyelesaikan ke yang baru. Jika IP lama tidak lagi melayani lalu lintas, wilayah yang masih menunjuk kepadanya mengalami pemadaman yang tidak akan pernah dilihat oleh wilayah yang sudah menunjuk ke IP baru. Pengaturan pemantauan multi-region mendeteksi ini segera karena beberapa probe akan gagal sementara yang lain berhasil, menciptakan pola yang khas dari masalah propagasi DNS dan berbeda dari masalah tingkat server.
Enam Probe dan Apa yang Setiap Pola Kegagalan Ungkapkan
Kekuatan enam probe simultan terletak tidak hanya pada deteksi kegagalan tetapi pada diagnosis mereka. Pola kegagalan yang berbeda sesuai dengan kategori masalah yang berbeda, dan operator berpengalaman sering dapat mengidentifikasi akar penyebab dari pola pemantauan saja sebelum bahkan membuka jendela terminal. Ketika keenam probe gagal secara simultan dengan kesalahan timeout koneksi, server asal atau jaringannya mungkin tidak dapat dijangkau, menunjukkan crash server, pemadaman penyedia hosting, atau masalah tingkat jaringan di pusat data. Ketika keenam probe gagal dengan respons kesalahan HTTP seperti 502 atau 503, server dapat dijangkau tetapi aplikasi rusak, menunjukkan kesalahan deployment, kegagalan database, atau crash tingkat aplikasi.
Ketika satu atau dua probe gagal sementara yang lain berhasil, pola menceritakan kisah regional. Jika probe yang gagal keduanya berada di Asia sementara probe Eropa dan Amerika Utara berhasil, masalahnya hampir pasti berada di jalur jaringan antara Asia dan server asal, baik di tepi CDN, penyedia transit, atau resolver DNS regional. Jika probe yang gagal berada di wilayah yang sama dengan server asal sementara probe jauh berhasil, masalahnya mungkin berada di tingkat jaringan lokal penyedia hosting, dengan probe jauh dilayani dari cache CDN yang menyamarkan kegagalan asal. Setiap pola mempersempit bidang diagnostik dan mempercepat waktu untuk resolusi.
Variasi waktu respons di seluruh probe memberikan sinyal yang lebih halus tetapi sama berharganya. Jika keenam probe menunjukkan respons yang sukses tetapi waktu respons satu wilayah telah berlipat ganda dibandingkan dengan garis dasar historisnya, wilayah itu mengalami degradasi yang belum berkembang menjadi kegagalan penuh. Menangkap degradasi sebelum itu menjadi pemadaman adalah salah satu kemampuan paling berharga dari pemantauan multi-region, karena ini memberi operator jendela waktu untuk menyelidiki dan campur tangan sebelum pengguna di wilayah itu mulai mengirimkan tiket dukungan. Dashboard pemantauan menampilkan waktu respons untuk keenam lokasi pada garis waktu tunggal, membuat pola degradasi regional terlihat sekilas.
Perutean Geografis dan Masalah yang Disembunyikannya
Infrastruktur internet modern menggunakan perutean geografis secara luas, mengarahkan pengguna ke server terdekat yang tersedia atau tepi CDN berdasarkan lokasi mereka. Perutean ini umumnya bermanfaat karena mengurangi latensi dan meningkatkan kinerja bagi mayoritas pengguna. Tetapi ini juga berarti bahwa jalur yang diambil permintaan dari titik A ke titik B bervariasi secara dramatis tergantung pada di mana titik A berada. Probe pemantauan di New York dan probe pemantauan di Tokyo akan mengambil jalur jaringan yang sepenuhnya berbeda untuk mencapai situs web yang sama, melewati ISP berbeda, pertukaran peering berbeda, dan tepi CDN berbeda. Penghalang di mana pun sepanjang satu jalur dapat tidak terlihat dari yang lain.
Perutean anycast, digunakan oleh sebagian besar CDN dan penyedia DNS utama, menambahkan lapisan kompleksitas lain. Dengan anycast, alamat IP yang sama diumumkan dari beberapa lokasi geografis, dan infrastruktur perutean internet mengarahkan setiap permintaan ke lokasi pengumuman terdekat. Ini berarti resolusi DNS atau permintaan CDN dari Eropa mencapai server Eropa sementara permintaan yang sama dari Asia mencapai server Asia, meskipun alamat IP dalam kedua kasus identik. Jika node anycast Asia memiliki masalah, probe Asia mendeteksinya sementara probe Eropa tidak dapat, karena permintaan mereka tidak pernah mencapai server fisik yang sama.
Perubahan perutean BGP dapat menyebabkan masalah reachability sementara atau berkepanjangan untuk wilayah tertentu. Ketika rute protokol gateway perbatasan ditarik atau diubah, lalu lintas yang sebelumnya mengalir melalui jalur langsung dapat dirutekan ulang melalui jalur yang lebih panjang, berpotensi macet, meningkatkan latensi dan kadang-kadang menyebabkan kehilangan paket. Peristiwa BGP ini umum, terjadi ribuan kali per hari secara global, dan dampaknya secara inheren regional. Sistem pemantauan multi-region mengalami peristiwa ini secara langsung melalui probe terdistribusinya, mendeteksi dampak pada setiap wilayah secara independen daripada mengandalkan satu titik pandang yang mungkin atau tidak terpengaruh.
Dari Deteksi hingga Tindakan dan Mengetahui Apa yang Harus Diperbaiki
Deteksi tanpa informasi yang dapat ditindaklanjuti hanyalah alarm yang membuat kebisingan tanpa menunjuk ke solusi. Nilai pemantauan multi-region melampaui memberi tahu Anda bahwa sesuatu salah. Ini memberi tahu Anda di mana kesalahan dan, melalui pola kegagalan, menyarankan jenis kesalahan apa. Konteks diagnostik ini mengubah proses respons insiden dari pencarian panik melalui log dan dashboard menjadi penyelidikan yang ditargetkan yang dimulai dengan hipotesis kuat tentang akar penyebab.
Ketika peringatan pemantauan menunjukkan bahwa satu wilayah telah gagal sementara yang lain tetap sehat, operator dapat segera fokus penyelidikan mereka pada jalur jaringan wilayah tersebut. Apakah tepi CDN di wilayah itu melaporkan masalah? Apakah ada insiden BGP aktif yang mempengaruhi penyedia transit di area tersebut? Apakah resolver DNS untuk wilayah itu cache catatan yang basi atau tidak benar? Setiap pertanyaan ini dapat dijawab dengan cepat, dan jawaban mengarah ke tindakan remediasi spesifik: bersihkan cache CDN untuk wilayah itu, hubungi penyedia transit, atau paksa refresh DNS. Tanpa konteks geografis yang disediakan oleh pemantauan multi-region, operator akan menyelidiki secara membabi buta, memeriksa setiap titik kegagalan yang mungkin daripada yang paling mungkin bertanggung jawab.
Platform pemantauan waktu aktif memasangkan hasil pemeriksaan multi-region dengan data historis yang menambahkan konteks temporal ke konteks spasial. Jika wilayah yang sama telah mengalami kegagalan pada waktu yang sama dalam hari pada kesempatan sebelumnya, itu menunjukkan masalah berulang seperti jendela pemeliharaan terjadwal di penyedia transit atau pola lalu lintas yang dapat diprediksi yang menyebabkan masalah kapasitas selama jam sibuk. Jika kegagalan adalah kejadian pertama tanpa preseden historis, itu lebih mungkin insiden akut yang memerlukan perhatian segera. Kombinasi konteks geografis dan temporal memberi operator gambaran terlengkap yang mungkin tentang apa yang terjadi, di mana itu terjadi, dan apakah itu telah terjadi sebelumnya.
Pertanyaan yang Sering Diajukan
Enam lokasi mana yang digunakan untuk pemantauan
Platform pemantauan menggunakan lokasi probe yang didistribusikan di Amerika Utara, Eropa, dan Asia untuk memberikan cakupan global. Lokasi spesifik dipilih untuk mewakili hub perutean internet utama di mana mayoritas lalu lintas web global mengalir.
Apa yang terjadi ketika hanya satu lokasi yang mendeteksi kegagalan
Kegagalan satu lokasi memicu peringatan yang menunjukkan masalah regional daripada pemadaman global. Peringatan mencakup lokasi spesifik yang gagal dan detail respons, membantu operator menentukan apakah masalahnya berada di tepi CDN, penyedia transit, atau resolver DNS yang melayani wilayah tersebut.
Dapatkah pemantauan multi-region mendeteksi kinerja lambat sebelum pemadaman penuh
Ya. Pemantauan waktu respons di seluruh keenam lokasi mengungkap degradasi di wilayah tertentu bahkan ketika situs tetap dapat diakses secara teknis. Waktu respons yang telah berlipat ganda dari garis dasar di satu wilayah sementara tetap stabil di wilayah lain adalah sinyal peringatan awal yang memungkinkan operator untuk menyelidiki sebelum pengguna mengalami kegagalan lengkap.
Seberapa sering pemeriksaan berjalan dari setiap lokasi
Frekuensi pemeriksaan dapat dikonfigurasi tergantung pada rencana pemantauan. Setiap interval pemeriksaan memicu probe simultan dari keenam lokasi, memastikan bahwa setiap pemeriksaan memberikan snapshot geografis lengkap daripada pengamatan titik tunggal.
Apakah pemantauan multi-region bekerja dengan situs di belakang Cloudflare atau CDN lainnya
Ya, dan situs yang didepan CDN sebenarnya adalah tempat pemantauan multi-region memberikan nilai paling banyak. Masalah tepi CDN secara inheren bersifat regional, dan hanya pemantauan multi-region yang dapat mendeteksi ketika tepi CDN spesifik terdegradasi sementara yang lain tetap sehat.
Apakah ini berguna untuk situs dengan lalu lintas dari hanya satu negara
Bahkan situs dengan lalu lintas yang terkonsentrasi secara geografis mendapat manfaat dari pemantauan multi-region karena masalah jalur jaringan dapat mempengaruhi rute apa pun. Selain itu, crawler mesin pencari mengakses situs dari beberapa wilayah, jadi pemadaman regional yang memblokir Googlebot dari perayapan mempengaruhi SEO bahkan jika pengunjung manusia di pasar utama tidak terpengaruh.