مراقبة من ستة مواقع جغرافية في نفس الوقت - إذا فشل موقع واحد أعرف بالضبط أين المشكلة
بدأت الصباح برسالة دعم من عميل في سنغافورة يقول إن الموقع معطل. لوحة المراقبة، التي كانت تعمل من خادم واحد في فرانكفورت، أظهرت كل شيء أخضر. جميع الفحوصات تمر. أوقات الاستجابة طبيعية. كان الموقع نشطاً. لكنه لم يكن نشطاً، على الأقل ليس لأي شخص يسلك مسارات شبكة آسيوية معينة. اتضح أن المشكلة كانت مشكلة توجيه إقليمية لدى مزود خدمة أعلى أثرت على حركة المرور من جنوب شرق آسيا بينما تركت الوصول الأوروبي والأمريكي الشمالي دون تأثر تماماً. نظام المراقبة، الذي كان يفحص بأمانة من نقطة مراقبة واحدة في ألمانيا، لم يكن لديه طريقة للكشف عن مشكلة لم تستطع رؤيتها من حيث كانت.
هذه الحادثة، والعديد من الحوادث المماثلة التي تلتها على مدار السنة التالية، أثبتت قيداً أساسياً لمراقبة الموقع الواحد يبدو واضحاً بأثر رجعي لكن من السهل جداً تجاهله. الإنترنت ليست شبكة موحدة حيث تؤدي جميع المسارات إلى نفس الوجهة عبر نفس البنية التحتية. إنها شبكة من الأنظمة الحكومية المترابطة واتفاقيات النظير وعقد حافة شبكة توصيل المحتوى ومحللات النطاقات التي تخلق تجارب مختلفة للمستخدمين في مناطق جغرافية مختلفة. يمكن لموقع الويب أن يكون سهل الوصول تماماً من أوروبا بينما يكون غير قابل للوصول في نفس الوقت من أجزاء من آسيا، وعاملاً تماماً من أمريكا الشمالية بينما يواجه فقدان الحزم من أمريكا الجنوبية، وسريعاً من مدينة واحدة بينما يكون بطيئاً من مدينة أخرى في نفس البلد.
الحل الذي تنفذه uptime.yeb.to هو المراقبة المتزامنة من ستة مواقع جغرافية موزعة عبر عدة قارات. يتم تشغيل كل فحص من جميع المواقع الستة ضمن نفس النافذة الزمنية، وتتم مقارنة النتائج لتحديد ما إذا كانت المشكلة عالمية أم إقليمية. عندما تبلغ جميع المواقع الستة عن فشل، يكون الموقع معطلاً حقاً في كل مكان. عندما يبلغ موقع واحد أو اثنان عن فشل بينما يُظهر الآخرون النجاح، تكون المشكلة إقليمية، والمواقع الفاشلة تضيق على الفور أين تقع المشكلة. يحول هذا التثليث الجغرافي المراقبة من إشارة ثنائية "نشط أو معطل" إلى خريطة دقيقة للتوفر تعكس الطريقة التي يعمل بها الإنترنت بالفعل.
لماذا تخلق مراقبة الموقع الواحد نقاط عمياء خطيرة
معظم خدمات مراقبة التشغيل، بما في ذلك العديد من الخدمات المعروفة، تفحص افتراضياً من موقع واحد أو تسمح للمستخدمين بتحديد منطقة مراقبة أساسية واحدة. يعمل هذا النهج بشكل مثالي للكشف عن الأعطال الكاملة حيث يكون خادم الأصل معطلاً ولا يمكن لأي شخص في أي مكان الوصول إلى الموقع. لهذه الأعطال الكارثية، مسبار واحد كافٍ لأن المشكلة عالمية. لكن فشل الخادم الكامل هو فئة واحدة فقط من الأعطال، وتدريجياً لم يعد حتى الأكثر شيوعاً. البنية التحتية الحديثة للويب، مع طبقاتها من شبكات توصيل المحتوى وموازنات التحميل وفشل DNS والتخزين المؤقت على الحافة، جعلت الأعطال الكاملة نادرة بينما جعل الأعطال الجزئية والإقليمية والمتقطعة أكثر تكراراً.
المشاكل المتعلقة بشبكة توصيل المحتوى هي المصدر الأكثر شيوعاً للتناقضات الإقليمية. تعمل شبكات توصيل المحتوى بتخزين المحتوى مؤقتاً على الخوادم الحدودية الموزعة حول العالم، ويخدم كل خادم حدودي الزائرين الأقرب جغرافياً له. عندما يواجه عقدة حافة شبكة توصيل محتوى في منطقة معينة مشاكل، سواء كانت فشل الأجهزة أو سوء التكوين أو الاختناق في السعة، يواجه الزائرون الموجهون إلى تلك العقدة الحدودية أداءً متدهوراً أو عدم توفر كامل بينما يرى الزائرون الموجهون إلى العقد الحدودية الصحية عدم وجود مشكلة. محراب موقع واحد يحدث أن يكون موجهاً إلى عقدة حدودية صحية سيبلغ عن كل شيء طبيعي بينما يتأثر عدد كامل من الزائرين من الناحية الإقليمية.
مشاكل انتشار DNS تخلق فئة أخرى من الأعطال الإقليمية. عند تحديث سجلات DNS، تنتشر التغييرات عبر البنية التحتية لـ DNS العالمية بسرعات مختلفة اعتماداً على قيم TTL وسلوك التخزين المؤقت للمحلل والمسار المحدد للدقة الذي تتبعه كل منطقة. خلال نافذة الانتشار، قد تحل بعض المناطق المجال إلى عنوان IP القديم بينما تحل المناطق الأخرى إلى الموقع الجديد. إذا كان عنوان IP القديم لا يقدم حركة المرور، فإن المناطق التي تشير إليها تواجه انقطاعاً لن تشهده المناطق التي تشير بالفعل إلى عنوان IP الجديد. يكتشف إعداد المراقبة متعددة المناطق هذا على الفور لأن بعض المسابير ستفشل بينما ستنجح الآخرون، مما يخلق نمطاً مميزاً لمشاكل انتشار DNS ومختلفاً عن مشاكل مستوى الخادم.
ستة مسابير وما يكشفه كل نمط فشل
تكمن قوة ستة مسابير متزامنة ليس فقط في اكتشاف الأعطال بل في تشخيصها. أنماط الفشل المختلفة تتوافق مع فئات مختلفة من المشاكل، وعامل خبرة يمكنه غالباً تحديد السبب الجذري من نمط المراقبة وحده قبل فتح نافذة الطرفية. عندما تفشل جميع المسابير الستة في نفس الوقت مع أخطاء مهلة الاتصال، فمن المحتمل أن يكون خادم الأصل أو شبكته غير قابل للوصول، مما يشير إلى انهيار الخادم أو انقطاع موفر الاستضافة أو مشكلة على مستوى الشبكة في مركز البيانات. عندما تفشل جميع المسابير الستة مع استجابات الخطأ HTTP مثل 502 أو 503، يكون الخادم قابلاً للوصول لكن التطبيق معطل، مما يشير إلى خطأ نشر أو فشل قاعدة بيانات أو انهيار على مستوى التطبيق.
عندما يفشل واحد أو اثنان من المسابير بينما ينجح الآخرون، يخبر النمط قصة إقليمية. إذا كانت المسابير الفاشلة كلاهما في آسيا بينما تنجح المسابير الأوروبية والأمريكية الشمالية، فإن المشكلة هي بالتأكيد تقريباً في مسار الشبكة بين آسيا وخادم الأصل، سواء في حافة شبكة توصيل محتوى أو موفر عبور أو محلل DNS إقليمي. إذا كان المسبار الفاشل في نفس المنطقة مثل خادم الأصل بينما تنجح المسابير البعيدة، فقد تكون المشكلة على مستوى الشبكة المحلي لموفر الاستضافة، مع خدمة المسابير البعيدة من ذاكرة تخزين مؤقت لشبكة توصيل محتوى تغطي فشل الأصل. يضيق كل نمط مجال التشخيص ويسرع وقت الدقة.
توفر تباينات وقت الاستجابة عبر المسابير إشارة أدق لكن متساوية القيمة. إذا أظهرت جميع المسابير الستة استجابات ناجحة لكن وقت استجابة منطقة واحدة قد تضاعف مقارنة بخط الأساس التاريخي لها، تواجه تلك المنطقة تدهوراً لم يتطور بعد إلى فشل كامل. اكتشاف التدهور قبل أن يصبح انقطاعاً هو واحد من أكثر القدرات قيمة للمراقبة متعددة المناطق، لأنها تعطي المشغل نافذة زمنية للتحقيق والتدخل قبل أن يبدأ المستخدمون في تلك المنطقة بتقديم تذاكر الدعم. لوحة المراقبة تعرض أوقات الاستجابة لجميع المواقع الستة على جدول زمني واحد، مما يجعل أنماط التدهور الإقليمية مرئية في لمحة.
التوجيه الجغرافي والمشاكل التي يخفيها
البنية التحتية الحديثة للإنترنت تستخدم التوجيه الجغرافي على نطاق واسع، موجهة المستخدمين إلى أقرب خادم متاح أو حافة شبكة توصيل محتوى بناءً على موقعهم. هذا التوجيه مفيد بشكل عام لأنه يقلل زمن الانتقال ويحسن الأداء لغالبية المستخدمين. لكنه يعني أيضاً أن المسار الذي تسلكه الطلب من النقطة A إلى النقطة B يختلف بشكل كبير حسب موقع النقطة A. مسبار مراقبة في نيويورك ومسبار مراقبة في طوكيو سيسلكان مسارات شبكية مختلفة تماماً للوصول إلى نفس موقع الويب، مروراً بموفري خدمات إنترنت مختلفة وعمليات تبادل نظير مختلفة وحواف شبكة توصيل محتوى مختلفة. يمكن لعائق في أي مكان على أحد المسارات أن يكون غير مرئي من الآخر.
التوجيه Anycast، المستخدم من قبل معظم شبكات توصيل المحتوى الرئيسية وموفري DNS، يضيف طبقة أخرى من التعقيد. مع anycast، يتم الإعلان عن عنوان IP نفسه من مواقع جغرافية متعددة، وموجهات البنية التحتية للإنترنت توجه كل طلب إلى أقرب موقع إعلان. هذا يعني أن دقة DNS أو طلب شبكة توصيل محتوى من أوروبا يصل إلى خادم أوروبي بينما يصل الطلب نفسه من آسيا إلى خادم آسيوي، حتى رغم أن عنوان IP في كلا الحالتين متطابق. إذا كانت عقدة anycast الآسيوية تعاني من مشكلة، فإن المسابير الآسيوية تكتشفها بينما لا تستطيع المسابير الأوروبية، لأن طلباتهم لم تصل حتى إلى نفس الخادم الفيزيائي.
تغييرات توجيه BGP يمكن أن تسبب مشاكل قابلية الوصول المؤقتة أو المستمرة لمناطق محددة. عندما يتم سحب أو تعديل مسار بروتوكول البوابة الحدودية، قد يتم إعادة توجيه حركة المرور التي كانت تتدفق سابقاً عبر مسار مباشر عبر مسارات أطول، وربما مزدحمة، مما يزيد من زمن الانتقال وأحياناً يسبب فقدان الحزم. أحداث BGP هذه شائعة، تحدث آلاف المرات يومياً عالمياً، وتأثيرها إقليمي بطبيعته. نظام مراقبة متعددة المناطق يختبر هذه الأحداث مباشرة من خلال المسابير الموزعة لها، مكتشفاً التأثير على كل منطقة بشكل مستقل بدلاً من الاعتماد على نقطة مراقبة واحدة قد تتأثر أو لا تتأثر.
من الكشف إلى العمل ومعرفة ما يجب إصلاحه
الكشف بدون معلومات قابلة للتنفيذ هو مجرد جرس ينبه بدون الإشارة نحو حل. تمتد قيمة المراقبة متعددة المناطق إلى ما وراء إخبارك بأن شيئاً ما خاطئ. إنها تخبرك أين يكون خاطئاً، وسبب ما هو خاطئ من خلال نمط الفشل. يحول هذا السياق التشخيصي عملية الاستجابة للحادث من بحث مجنون عبر السجلات والشاشات إلى تحقيق موجه يبدأ بفرضية قوية حول السبب الجذري.
عندما تظهر تنبيهات المراقبة أن منطقة واحدة فشلت بينما ظلت الآخرون سليمة، يمكن للمشغل على الفور التركيز على التحقيق في مسار شبكة تلك المنطقة. هل حافة شبكة توصيل المحتوى في تلك المنطقة تبلغ عن مشاكل؟ هل هناك حادثة BGP نشطة تؤثر على موفري النقل في تلك المنطقة؟ هل أحل محلل DNS لتلك المنطقة سجل قديم أو غير صحيح؟ يمكن الإجابة على كل واحدة من هذه الأسئلة بسرعة، والإجابات تؤدي إلى إجراءات علاجية محددة: تنقية ذاكرة التخزين المؤقت لشبكة توصيل المحتوى لتلك المنطقة أو الاتصال بموفر النقل أو فرض تحديث DNS. بدون السياق الجغرافي الذي توفره المراقبة متعددة المناطق، سيكون المشغل يحقق بشكل عشوائي، يفحص كل نقطة فشل محتملة بدلاً من تلك الأكثر احتمالاً لتكون مسؤولة.
منصة المراقبة تقترن نتائج الفحص متعددة المناطق بالبيانات التاريخية التي تضيف السياق الزمني إلى السياق المكاني. إذا واجهت المنطقة نفسها أعطالاً في نفس الوقت من اليوم في مناسبات سابقة، فهذا يشير إلى مشكلة متكررة مثل نافذة صيانة مجدولة لدى موفر النقل أو نمط حركة مرور متنبأ به يسبب مشاكل في السعة خلال ساعات الذروة. إذا كان الفشل أول حدوث بدون سابقة تاريخية، فمن المرجح أكثر أن تكون حادثة حادة تتطلب اهتماماً فورياً. يعطي المزيج من السياق الجغرافي والزمني للمشغلين أكمل صورة ممكنة لما يحدث، أين يحدث، وما إذا كان قد حدث من قبل.
أسئلة شائعة
أي ستة مواقع تُستخدم للمراقبة
منصة المراقبة تستخدم مواقع المسابير الموزعة عبر أمريكا الشمالية وأوروبا وآسيا لتوفير غطاء عالمي. يتم اختيار المواقع المحددة لتمثيل مراكز التوجيه الرئيسية على الإنترنت حيث تتدفق غالبية حركة الويب العالمية.
ما الذي يحدث عندما يكتشف موقع واحد فقط فشلاً
فشل موقع واحد يؤدي إلى تنبيه يشير إلى مشكلة إقليمية بدلاً من انقطاع عام. يتضمن التنبيه الموقع المحدد الذي فشل وتفاصيل الاستجابة، مما يساعد المشغل على تحديد ما إذا كانت المشكلة في حافة شبكة توصيل المحتوى أو موفر نقل أو محلل DNS يخدم تلك المنطقة.
هل يمكن للمراقبة متعددة المناطق الكشف عن الأداء البطيء قبل انقطاع كامل
نعم. مراقبة وقت الاستجابة عبر جميع المواقع الستة تكشف التدهور في مناطق محددة حتى عندما يبقى الموقع سهل الوصول من الناحية التقنية. وقت استجابة قد تضاعف من خط الأساس في منطقة واحدة بينما يبقى مستقراً في الآخرين هو إشارة تحذير مبكرة تسمح للمشغل بالتحقيق قبل أن يختبر المستخدمون فشلاً كاملاً.
ما مدى تكرار تشغيل الفحوصات من كل موقع
تكرار الفحص قابل للتكوين حسب خطة المراقبة. كل فترة فحص تؤدي إلى مسابير متزامنة من جميع المواقع الستة، مما يضمن أن كل فحص يوفر لقطة جغرافية كاملة بدلاً من ملاحظة نقطة واحدة.
هل تعمل المراقبة متعددة المناطق مع المواقع خلف Cloudflare أو شبكات توصيل محتوى أخرى
نعم، والمواقع على الويب التي تقف أمامها شبكات توصيل محتوى هي في الواقع حيث توفر المراقبة متعددة المناطق أكثر قيمة. مشاكل حافة شبكة توصيل المحتوى إقليمية بطبيعتها، وفقط المراقبة متعددة المناطق يمكن أن تكتشف عندما حافة شبكة توصيل محتوى محددة متدهورة بينما تبقى الآخرون سليمة.
هل هذا مفيد للمواقع التي تحصل على حركة من دولة واحدة فقط
حتى المواقع ذات حركة المرور المركزة جغرافياً تستفيد من المراقبة متعددة المناطق لأن مشاكل مسار الشبكة يمكن أن تؤثر على أي مسار. بالإضافة إلى ذلك، يصل زحافات محركات البحث إلى المواقع من مناطق متعددة، لذلك انقطاع إقليمي يمنع Googlebot من الزحف يؤثر على تحسين محركات البحث حتى لو كان الزائرون البشريون في السوق الأساسي غير متأثرين.