Memantau Dari Enam Lokasi Geografi Sekaligus dan Jika Hanya Satu Gagal Saya Tahu Dengan Tepat Di Mana Masalahnya Berada
Pagi itu dimulai dengan tiket dukungan dari pelanggan di Singapura mengatakan bahwa situs web telah mengalami gangguan. Dasbor pemantauan, yang berjalan dari satu server tunggal di Frankfurt, menampilkan semuanya berwarna hijau. Semua pemeriksaan lulus. Waktu respons normal. Situs itu sedang aktif. Kecuali itu tidak aktif, setidaknya tidak untuk siapa pun yang merutekan melalui jalur jaringan Asia tertentu. Masalahnya ternyata adalah masalah perutean regional pada penyedia hulu yang mempengaruhi lalu lintas dari Asia Tenggara sambil meninggalkan akses Eropa dan Amerika Utara sepenuhnya tidak terpengaruh. Sistem pemantauan, dengan setia memeriksa dari satu titik pandang di Jerman, tidak memiliki cara untuk mendeteksi masalah yang tidak dapat dilihatnya dari tempat itu berdiri.
Insiden ini, dan beberapa insiden serupa yang mengikuti selama tahun berikutnya, menunjukkan keterbatasan mendasar dari pemantauan lokasi tunggal yang tampak jelas dalam retrospektif tetapi ternyata mudah untuk diabaikan. Internet bukanlah jaringan seragam di mana semua jalur menuju tujuan yang sama melalui infrastruktur yang sama. Ini adalah jalinan sistem otonom yang saling terhubung, perjanjian peering, simpul tepi CDN, dan resolver DNS yang menciptakan pengalaman berbeda bagi pengguna di wilayah geografis yang berbeda. Sebuah situs web dapat sepenuhnya dapat diakses dari Eropa sambil bersamaan tidak terjangkau dari bagian Asia, berfungsi penuh dari Amerika Utara sambil mengalami kehilangan paket dari Amerika Selatan, dan cepat dari satu kota sambil lambat dari kota lain di negara yang sama.
Solusi yang diterapkan oleh uptime.yeb.to adalah pemantauan simultan dari enam lokasi geografis yang tersebar di beberapa benua. Setiap pemeriksaan berjalan dari keenam lokasi dalam jendela waktu yang sama, dan hasil dibandingkan untuk menentukan apakah masalah bersifat global atau regional. Ketika keenam lokasi melaporkan kegagalan, situs benar-benar sedang down di mana-mana. Ketika satu atau dua lokasi melaporkan kegagalan sementara yang lain menunjukkan kesuksesan, masalahnya bersifat regional, dan lokasi yang gagal segera mempersempit di mana masalahnya terletak. Triangulasi geografis ini mengubah pemantauan dari sinyal biner "aktif atau tidak aktif" menjadi peta ketersediaan yang bernuansa yang mencerminkan cara internet benar-benar bekerja.
Mengapa Pemantauan Lokasi Tunggal Menciptakan Titik Buta yang Berbahaya
Sebagian besar layanan pemantauan uptime, termasuk banyak yang terkenal, secara default memeriksa dari satu lokasi atau memungkinkan pengguna untuk memilih satu wilayah pemantauan utama. Pendekatan ini bekerja dengan sempurna untuk mendeteksi gangguan lengkap di mana server asal sedang down dan tidak ada seorang pun di mana pun dapat mengakses situs. Untuk kegagalan bencana ini, satu probe sudah cukup karena masalahnya bersifat universal. Tetapi kegagalan server lengkap hanya satu kategori pemadaman, dan semakin sering bukanlah yang paling umum. Infrastruktur web modern, dengan lapisan CDN, penyeimbang beban, failover DNS, dan caching edge, telah membuat gangguan total menjadi langka sambil membuat kegagalan sebagian, regional, dan intermiten lebih sering terjadi.
Masalah terkait CDN adalah sumber paling umum dari perbedaan regional. Jaringan pengiriman konten beroperasi dengan menyimpan konten di server edge yang didistribusikan di seluruh dunia, dan setiap server edge melayani pengunjung yang secara geografis paling dekat dengannya. Ketika simpul tepi CDN di wilayah tertentu mengalami masalah, baik kegagalan perangkat keras, kesalahan konfigurasi, atau kelebihan kapasitas, pengunjung yang dirutekan ke simpul tepi itu mengalami penurunan kinerja atau ketidaktersediaan lengkap sementara pengunjung yang dirutekan ke simpul tepi yang sehat tidak melihat masalah apa pun. Monitor lokasi tunggal yang kebetulan dirutekan ke simpul tepi yang sehat akan melaporkan semuanya normal sementara seluruh wilayah pengunjung terpengaruh.
Masalah propagasi DNS menciptakan kelas kegagalan regional lainnya. Ketika catatan DNS diperbarui, perubahan menyebar melalui infrastruktur DNS global dengan kecepatan berbeda tergantung pada nilai TTL, perilaku caching resolver, dan jalur resolusi spesifik yang diikuti setiap wilayah. Selama jendela propagasi, beberapa wilayah mungkin menyelesaikan domain ke alamat IP lama sementara yang lain menyelesaikan ke yang baru. Jika IP lama tidak lagi melayani lalu lintas, wilayah yang masih menunjuk ke dalamnya mengalami pemadaman yang tidak akan pernah dilihat wilayah yang sudah menunjuk ke IP baru. Pengaturan pemantauan multi-wilayah mendeteksi ini segera karena beberapa probe akan gagal sementara yang lain berhasil, menciptakan pola yang karakteristik masalah propagasi DNS dan berbeda dari masalah tingkat server.
Enam Probe dan Apa yang Setiap Pola Kegagalan Ungkapkan
Kekuatan enam probe simultan terletak tidak hanya pada pendeteksian kegagalan tetapi pada diagnosis mereka. Pola kegagalan yang berbeda sesuai dengan kategori masalah yang berbeda, dan operator berpengalaman sering dapat mengidentifikasi akar penyebab dari pola pemantauan sendiri sebelum bahkan membuka jendela terminal. Ketika keenam probe gagal secara bersamaan dengan kesalahan timeout koneksi, server asal atau jaringannya kemungkinan tidak dapat dijangkau, menunjukkan crash server, pemadaman penyedia hosting, atau masalah tingkat jaringan di pusat data. Ketika keenam probe gagal dengan respons kesalahan HTTP seperti 502 atau 503, server dapat dijangkau tetapi aplikasi rusak, menunjukkan kesalahan deployment, kegagalan database, atau crash tingkat aplikasi.
Ketika satu atau dua probe gagal sementara yang lain berhasil, pola itu menceritakan kisah regional. Jika probe yang gagal keduanya berada di Asia sementara probe Eropa dan Amerika Utara berhasil, masalahnya hampir pasti ada di jalur jaringan antara Asia dan server asal, baik di tepi CDN, penyedia transit, atau resolver DNS regional. Jika probe yang gagal berada di wilayah yang sama dengan server asal sementara probe jauh berhasil, masalahnya mungkin ada di tingkat jaringan lokal penyedia hosting, dengan probe jauh dilayani dari cache CDN yang menyembunyikan kegagalan asal. Setiap pola mempersempit bidang diagnostik dan mempercepat waktu ke resolusi.
Variasi waktu respons di seluruh probe memberikan sinyal yang lebih halus tetapi sama berharganya. Jika keenam probe menunjukkan respons yang sukses tetapi waktu respons satu wilayah telah berlipat ganda dibandingkan dengan baseline historisnya, wilayah itu mengalami degradasi yang belum berkembang menjadi kegagalan penuh. Menangkap degradasi sebelum menjadi pemadaman adalah salah satu kemampuan paling berharga dari pemantauan multi-wilayah, karena memberikan operator jendela waktu untuk menyelidiki dan campur tangan sebelum pengguna di wilayah itu mulai mengirimkan tiket dukungan. Dasbor pemantauan menampilkan waktu respons untuk keenam lokasi pada satu garis waktu, membuat pola degradasi regional terlihat sekilas.
Perutean Geografis dan Masalah yang Disembunyikannya
Infrastruktur internet modern menggunakan perutean geografis secara ekstensif, mengarahkan pengguna ke server terdekat yang tersedia atau tepi CDN berdasarkan lokasi mereka. Perutean ini umumnya bermanfaat karena mengurangi latensi dan meningkatkan kinerja bagi mayoritas pengguna. Tetapi itu juga berarti bahwa jalur yang diambil permintaan dari titik A ke titik B bervariasi secara dramatis tergantung di mana titik A berada. Probe pemantauan di New York dan probe pemantauan di Tokyo akan mengambil jalur jaringan yang benar-benar berbeda untuk mencapai situs web yang sama, melewati ISP yang berbeda, pertukaran peering yang berbeda, dan tepi CDN yang berbeda. Sebuah hambatan di mana pun di sepanjang satu jalur dapat tidak terlihat dari yang lain.
Perutean anycast, yang digunakan oleh sebagian besar CDN utama dan penyedia DNS, menambah lapisan kompleksitas lainnya. Dengan anycast, alamat IP yang sama diumumkan dari beberapa lokasi geografis, dan infrastruktur perutean internet mengarahkan setiap permintaan ke lokasi pengumuman terdekat. Ini berarti bahwa resolusi DNS atau permintaan CDN dari Eropa mencapai server Eropa sementara permintaan yang sama dari Asia mencapai server Asia, meskipun alamat IP dalam kedua kasus identik. Jika simpul anycast Asia memiliki masalah, probe Asia mendeteksinya sementara probe Eropa tidak dapat, karena permintaan mereka tidak pernah mencapai server fisik yang sama.
Perubahan perutean BGP dapat menyebabkan masalah keterjangkauan sementara atau berkepanjangan untuk wilayah tertentu. Ketika rute border gateway protocol ditarik atau diubah, lalu lintas yang sebelumnya mengalir melalui jalur langsung mungkin dirutekan ulang melalui jalur yang lebih panjang, berpotensi melalui jalur yang ramai, meningkatkan latensi dan kadang-kadang menyebabkan kehilangan paket. Peristiwa BGP ini umum, terjadi ribuan kali per hari secara global, dan dampaknya bersifat regional. Sistem pemantauan multi-wilayah mengalami peristiwa ini secara langsung melalui probe terdistribusinya, mendeteksi dampak pada setiap wilayah secara independen daripada bergantung pada satu titik pandang yang mungkin atau mungkin tidak terpengaruh.
Dari Deteksi hingga Tindakan dan Mengetahui Apa yang Harus Diperbaiki
Deteksi tanpa informasi yang dapat ditindaklanjuti hanyalah alarm yang membuat kebisingan tanpa menunjuk ke solusi. Nilai pemantauan multi-wilayah melampaui memberi tahu Anda bahwa ada yang salah. Ini memberitahu Anda di mana itu salah dan, melalui pola kegagalan, menyarankan jenis kesalahan apa itu. Konteks diagnostik ini mengubah proses respons insiden dari pencarian yang panik melalui log dan dasbor menjadi penyelidikan yang ditargetkan yang dimulai dengan hipotesis kuat tentang akar penyebab.
Ketika peringatan pemantauan menunjukkan bahwa satu wilayah telah gagal sementara yang lain tetap sehat, operator dapat segera fokus penyelidikan mereka pada jalur jaringan wilayah itu. Apakah tepi CDN di wilayah itu melaporkan masalah? Apakah ada insiden BGP aktif yang mempengaruhi penyedia transit di area itu? Apakah resolver DNS untuk wilayah itu telah menyimpan catatan yang basi atau salah? Masing-masing pertanyaan ini dapat dijawab dengan cepat, dan jawabannya mengarah ke tindakan remediasi spesifik: bersihkan cache CDN untuk wilayah itu, hubungi penyedia transit, atau paksa penyegaran DNS. Tanpa konteks geografis yang diberikan oleh pemantauan multi-wilayah, operator akan menyelidiki dengan buta, memeriksa setiap titik kegagalan yang mungkin daripada yang paling mungkin bertanggung jawab.
Platform pemantauan uptime memasangkan hasil pemeriksaan multi-wilayah dengan data historis yang menambahkan konteks temporal ke konteks spasial. Jika wilayah yang sama telah mengalami kegagalan pada waktu yang sama dalam hari sebelumnya, itu menunjukkan masalah berulang seperti jendela pemeliharaan terjadwal di penyedia transit atau pola lalu lintas yang dapat diprediksi yang menyebabkan masalah kapasitas selama jam-jam sibuk. Jika kegagalan adalah kejadian pertama tanpa preseden historis, itu lebih mungkin insiden akut yang memerlukan perhatian segera. Kombinasi konteks geografis dan temporal memberikan operator gambaran paling lengkap tentang apa yang terjadi, di mana itu terjadi, dan apakah itu pernah terjadi sebelumnya.
Pertanyaan yang Sering Diajukan
Enam lokasi mana yang digunakan untuk pemantauan
Platform pemantauan menggunakan lokasi probe yang didistribusikan di seluruh Amerika Utara, Eropa, dan Asia untuk memberikan jangkauan global. Lokasi spesifik dipilih untuk mewakili hub perutean internet utama di mana sebagian besar lalu lintas web global mengalir.
Apa yang terjadi ketika hanya satu lokasi mendeteksi kegagalan
Kegagalan lokasi tunggal memicu peringatan yang menunjukkan masalah regional daripada gangguan global. Peringatan mencakup lokasi spesifik yang gagal dan detail respons, membantu operator menentukan apakah masalahnya ada di tepi CDN, penyedia transit, atau resolver DNS yang melayani wilayah itu.
Bisakah pemantauan multi-wilayah mendeteksi kinerja lambat sebelum gangguan penuh
Ya. Pemantauan waktu respons di seluruh keenam lokasi mengungkapkan degradasi di wilayah tertentu bahkan ketika situs tetap dapat diakses secara teknis. Waktu respons yang telah berlipat ganda dari baseline-nya di satu wilayah sambil tetap stabil di wilayah lain adalah sinyal peringatan awal yang memungkinkan operator untuk menyelidiki sebelum pengguna mengalami kegagalan lengkap.
Seberapa sering pemeriksaan berjalan dari setiap lokasi
Frekuensi pemeriksaan dapat dikonfigurasi tergantung pada rencana pemantauan. Setiap interval pemeriksaan memicu probe simultan dari keenam lokasi, memastikan bahwa setiap pemeriksaan memberikan snapshot geografis lengkap daripada observasi titik tunggal.
Apakah pemantauan multi-wilayah bekerja dengan situs di belakang Cloudflare atau CDN lainnya
Ya, dan situs yang berhadapan dengan CDN sebenarnya di mana pemantauan multi-wilayah memberikan nilai paling. Masalah tepi CDN bersifat regional, dan hanya pemantauan multi-wilayah yang dapat mendeteksi ketika tepi CDN tertentu terdegradasi sementara yang lain tetap sehat.
Apakah ini berguna untuk situs dengan lalu lintas dari hanya satu negara
Bahkan situs dengan lalu lintas yang terkonsentrasi secara geografis mendapat manfaat dari pemantauan multi-wilayah karena masalah jalur jaringan dapat mempengaruhi rute apa pun. Selain itu, perayap mesin pencari mengakses situs dari berbagai wilayah, jadi gangguan regional yang memblokir Googlebot dari crawling mempengaruhi SEO bahkan jika pengunjung manusia di pasar utama tidak terpengaruh.