Παρακολούθηση Από Έξι Γεωγραφικές Τοποθεσίες Ταυτόχρονα και Αν Κάποια Αποτύχει Ξέρω Ακριβώς Πού Είναι το Πρόβλημα

Το πρωί ξεκίνησε με ένα εισιτήριο υποστήριξης από έναν πελάτη στη Σιγκαπούρη που έλεγε ότι ο ιστοχώρος ήταν κάτω. Ο πίνακας παρακολούθησης, ο οποίος λειτουργούσε από έναν μόνο διακομιστή στη Φρανκφούρτη, έδειχνε όλα πράσινα. Όλοι έλεγχοι περνούσαν. Οι χρόνοι απόκρισης κανονικοί. Ο ιστοχώρος ήταν ενεργός. Εκτός από το ότι δεν ήταν ενεργός, τουλάχιστον όχι για οποιονδήποτε διαδρομή τον ίδιο δρόμο μέσω ορισμένων ασιατικών δικτυακών διαδρομών. Το πρόβλημα αποδείχθηκε ότι ήταν ένα περιφερειακό πρόβλημα δρομολόγησης σε έναν ανώτερο πάροχο που επηρέασε την κυκλοφορία από τη Νοτιοανατολική Ασία, ενώ άφησε την ευρωπαϊκή και βορειοαμερικανική πρόσβαση εντελώς ανεπηρέαστη. Το σύστημα παρακολούθησης, πιστά ελέγχοντας από το ένα του σημείο στη Γερμανία, δεν είχε τρόπο να ανιχνεύσει ένα πρόβλημα που δεν μπορούσε να δει από όπου στάθηκε.

Αυτό το περιστατικό, και τα παρόμοια που ακολούθησαν τους επόμενους δώδεκα μήνες, κατέδειξε έναν θεμελιώδη περιορισμό της παρακολούθησης σε ένα μόνο σημείο που φαίνεται προφανής σε ανασκόπηση αλλά είναι εκπληκτικά εύκολο να παραγνωρίσετε. Το διαδίκτυο δεν είναι ένα ομοιόμορφο δίκτυο όπου όλες οι διαδρομές οδηγούν στον ίδιο προορισμό μέσω της ίδιας υποδομής. Είναι ένας ιστός διασυνδεδεμένων αυτόνομων συστημάτων, συμφωνίες peering, κόμβοι CDN edge και επιλυτές DNS που δημιουργούν διαφορετικές εμπειρίες για τους χρήστες σε διαφορετικές γεωγραφικές περιοχές. Ένας ιστοχώρος μπορεί να είναι τέλεια προσβάσιμος από την Ευρώπη ενώ ταυτόχρονα είναι ανέφικτος από μέρη της Ασίας, πλήρως λειτουργικός από τη Βόρεια Αμερική ενώ υποφέρει από απώλεια πακέτων από τη Νότια Αμερική, και γρήγορος από μια πόλη ενώ είναι αργός από μια άλλη πόλη στη ίδια χώρα.

Η λύση που εφαρμόζει το uptime.yeb.to είναι η ταυτόχρονη παρακολούθηση από έξι γεωγραφικές τοποθεσίες που κατανέμονται σε πολλές ηπείρους. Κάθε έλεγχος εκτελείται από όλες τις έξι τοποθεσίες εντός του ίδιου χρονικού παραθύρου, και τα αποτελέσματα συγκρίνονται για να προσδιοριστεί εάν ένα ζήτημα είναι καθολικό ή περιφερειακό. Όταν και οι έξι τοποθεσίες αναφέρουν αποτυχία, ο ιστοχώρος είναι πραγματικά κάτω παντού. Όταν μια ή δύο τοποθεσίες αναφέρουν αποτυχία ενώ οι άλλες δείχνουν επιτυχία, το πρόβλημα είναι περιφερειακό, και οι αποτυχημένες τοποθεσίες περιορίζουν αμέσως πού βρίσκεται το πρόβλημα. Αυτό το γεωγραφικό τριγωνισμό μετατρέπει την παρακολούθηση από ένα δυαδικό σήμα "ενεργό ή κάτω" σε έναν διαφοροποιημένο χάρτη διαθεσιμότητας που αντικατοπτρίζει τον πραγματικό τρόπο λειτουργίας του διαδικτύου.

Γιατί η Παρακολούθηση σε Ένα Σημείο Δημιουργεί Επικίνδυνα Τυφλά Σημεία

Τα περισσότερα υπηρεσίες παρακολούθησης χρόνου ενεργού, συμπεριλαμβανομένων πολλών γνωστών, επιλέγουν εξ ορισμού να ελέγχουν από ένα μόνο σημείο ή επιτρέπουν στους χρήστες να επιλέξουν μια κύρια περιοχή παρακολούθησης. Αυτή η προσέγγιση λειτουργεί τέλεια για τον εντοπισμό πλήρων διακοπών όπου ο διακομιστής προέλευσης είναι κάτω και κανείς δεν μπορεί να προσπελάσει τον ιστοχώρο. Για αυτές τις καταστροφικές αποτυχίες, ένας μόνο αισθητήρας είναι επαρκής επειδή το πρόβλημα είναι καθολικό. Αλλά η πλήρης αποτυχία διακομιστή είναι μόνο μια κατηγορία διακοπής, και όλο και περισσότερο δεν είναι ούτε η πιο συνηθισμένη. Η σύγχρονη υποδομή ιστού, με τα επίπεδά της CDN, ισορροπιστές φορτίου, DNS failover και περιμετρική αποθήκευση, έκανε τις πλήρεις διακοπές σπάνιες ενώ κάνει τις μερικές, περιφερειακές και διακοπτόμενες αποτυχίες πιο συχνές.

Τα ζητήματα που σχετίζονται με CDN είναι η πιο συνηθισμένη πηγή περιφερειακών αποκλίσεων. Τα δίκτυα παράδοσης περιεχομένου λειτουργούν αποθηκεύοντας περιεχόμενο σε διακομιστές edge που κατανέμονται σε ολόκληρο τον κόσμο, και κάθε διακομιστής edge εξυπηρετεί επισκέπτες που είναι γεωγραφικά πλησιέστερα σε αυτό. Όταν ένας κόμβος CDN edge σε ένα συγκεκριμένο περιοχή αντιμετωπίζει προβλήματα, είτε αποτυχία υλικού, λανθασμένη ρύθμιση ή υπερφόρτωση χωρητικότητας, οι επισκέπτες που δρομολογούνται σε αυτό το κόμβο edge αντιμετωπίζουν υποβαθμισμένη απόδοση ή πλήρη μη διαθεσιμότητα ενώ οι επισκέπτες που δρομολογούνται σε υγιή κόμβος edge δεν βλέπουν κανένα πρόβλημα. Ένας παρακολούθησης ενός σημείου που τυχαίνει να δρομολογείται σε έναν υγιή κόμβο edge θα αναφέρει ότι όλα είναι φυσιολογικά ενώ ένα ολόκληρο περιοχής αξίας επισκεπτών επηρεάζονται.

Τα ζητήματα DNS propagation δημιουργούν μια άλλη κατηγορία περιφερειακών αποτυχιών. Όταν οι εγγραφές DNS ενημερώνονται, οι αλλαγές διαδίδονται μέσω της καθολικής υποδομής DNS με διαφορετικές ταχύτητες ανάλογα με τις τιμές TTL, τη συμπεριφορά αποθήκευσης επιλυτή και τη συγκεκριμένη διαδρομή ανάλυσης που ακολουθεί κάθε περιοχή. Κατά τη διάρκεια του παραθύρου διάδοσης, ορισμένες περιοχές μπορεί να επιλύσουν τον τομέα στο παλιό IP ενώ άλλες το επιλύσουν στο νέο. Αν το παλιό IP δεν εξυπηρετεί πλέον κυκλοφορία, οι περιοχές που εξακολουθούν να δείχνουν σε αυτό αντιμετωπίζουν μια διακοπή που οι περιοχές που ήδη δείχνουν στο νέο IP δεν θα δουν ποτέ. Ένα σύστημα παρακολούθησης πολλών περιοχών εντοπίζει αυτό αμέσως επειδή ορισμένες μέτρηση αποτυχηθούν ενώ άλλες επιτυχηθούν, δημιουργώντας ένα σχέδιο που είναι χαρακτηριστικό των ζητημάτων DNS propagation και ξεχωριστό από προβλήματα επιπέδου διακομιστή.

Έξι Μέτρηση και Τι Αποκαλύπτει Κάθε Σχέδιο Αποτυχίας

Η δύναμη της έξι ταυτόχρονης μέτρηση έγκειται όχι μόνο στον εντοπισμό αποτυχιών αλλά στη διάγνωσή τους. Διαφορετικά σχέδια αποτυχίας αντιστοιχούν σε διαφορετικές κατηγορίες προβλημάτων, και ένας έμπειρος χειριστής μπορεί συχνά να προσδιορίσει την αιτία του προβλήματος από το σχέδιο παρακολούθησης μόνο πριν ακόμη ανοίξει ένα παράθυρο τερματικού. Όταν και οι έξι μέτρηση αποτυχηθούν ταυτόχρονα με σφάλματα χρονικού ορίου σύνδεσης, ο διακομιστής προέλευσης ή το δίκτυό του είναι πιθανώς ανέφικτο, υποδεικνύοντας τη σύντριψη διακομιστή, διακοπή παρόχου φιλοξενίας ή πρόβλημα δικτύου επιπέδου στο κέντρο δεδομένων. Όταν και οι έξι μέτρηση αποτυχηθούν με απαντήσεις σφάλματος HTTP όπως 502 ή 503, ο διακομιστής είναι προσβάσιμος αλλά η εφαρμογή είναι σπασμένη, υποδεικνύοντας σφάλμα ανάπτυξης, αποτυχία βάσης δεδομένων ή σύντριψη εφαρμογής επιπέδου.

Όταν μια ή δύο μέτρηση αποτυχηθούν ενώ οι άλλες επιτυχηθούν, το σχέδιο λέει μια περιφερειακή ιστορία. Αν οι αποτυχημένες μέτρηση είναι και στην Ασία ενώ οι ευρωπαϊκές και βορειοαμερικανικές μέτρηση επιτυχηθούν, το ζήτημα είναι σχεδόν σίγουρα στη δικτυακή διαδρομή μεταξύ Ασίας και του διακομιστή προέλευσης, είτε σε ένα CDN edge, είτε σε έναν παρόχο διέλευσης ή σε έναν περιοχικό επιλυτή DNS. Αν η αποτυχημένη μέτρηση είναι στην ίδια περιοχή με τον διακομιστή προέλευσης ενώ οι μακρινές μέτρηση επιτυχηθούν, το πρόβλημα μπορεί να είναι στο τοπικό δικτυακό επίπεδο του παρόχου φιλοξενίας, με τις μακρινές μέτρηση να εξυπηρετούνται από ένα CDN cache που καλύπτει την αποτυχία προέλευσης. Κάθε σχέδιο περιορίζει το διαγνωστικό πεδίο και επιταχύνει το χρόνο επίλυσης.

Οι παραλλαγές χρόνου απόκρισης σε όλες τις μέτρηση παρέχουν ένα πιο λεπτό αλλά ισάξιο πολύτιμο σήμα. Αν και οι έξι μέτρηση δείχνουν επιτυχημένες απαντήσεις αλλά ο χρόνος απόκρισης μιας περιοχής έχει διπλασιαστεί σε σύγκριση με τη ιστορική βάση δεδομένων, αυτή η περιοχή αντιμετωπίζει υποβάθμιση που δεν έχει ακόμη προχωρήσει σε πλήρη αποτυχία. Ο εντοπισμός υποβάθμισης πριν γίνει αποτυχία είναι μια από τις πιο πολύτιμες ικανότητες της παρακολούθησης πολλών περιοχών, διότι δίνει στο χειριστή ένα χρονικό παράθυρο για να διερευνήσει και να παρέμβει πριν οι χρήστες σε αυτή την περιοχή αρχίσουν να υποβάλλουν εισιτήρια υποστήριξης. Ο πίνακας ελέγχου παρακολούθησης εμφανίζει τους χρόνους απόκρισης για όλες τις έξι τοποθεσίες σε μια ενιαία γραμμή χρόνου, κάνοντας τα περιφερειακά σχέδια υποβάθμισης ορατά με μια ματιά.

Γεωγραφική Δρομολόγηση και τα Προβλήματα που Κρύβει

Η σύγχρονη υποδομή διαδικτύου χρησιμοποιεί εκτεταμένα τη γεωγραφική δρομολόγηση, κατευθύνοντας τους χρήστες στον πλησιέστερο διαθέσιμο διακομιστή ή CDN edge με βάση τη θέση τους. Αυτή η δρομολόγηση είναι γενικά ευεργετική γιατί μειώνει τη χρονοκαθυστέρηση και βελτιώνει την απόδοση για την πλειονότητα των χρηστών. Αλλά σημαίνει επίσης ότι η διαδρομή που λαμβάνει ένα αίτημα από το σημείο Α στο σημείο Β ποικίλλει δραματικά ανάλογα με το πού είναι το σημείο Α. Μια μέτρηση παρακολούθησης στη Νέα Υόρκη και μια μέτρηση παρακολούθησης στο Τόκιο θα λάβουν εντελώς διαφορετικές δικτυακές διαδρομές για να φτάσουν στον ίδιο ιστοχώρο, περνώντας από διαφορετικούς ISP, διαφορετικές ανταλλαγές peering και διαφορετικά CDN edges. Ένα εμπόδιο οπουδήποτε κατά μήκος μιας διαδρομής μπορεί να είναι αόρατο από την άλλη.

Η δρομολόγηση Anycast, που χρησιμοποιείται από τα περισσότερα μεγάλα CDN και παρόχους DNS, προσθέτει ένα άλλο επίπεδο πολυπλοκότητας. Με anycast, η ίδια διεύθυνση IP ανακοινώνεται από πολλές γεωγραφικές τοποθεσίες, και η υποδομή δρομολόγησης του διαδικτύου κατευθύνει κάθε αίτημα στο πλησιέστερο ανακοίνωση τοποθεσία. Αυτό σημαίνει ότι ένα αίτημα ανάλυσης DNS ή CDN από την Ευρώπη φτάνει σε έναν ευρωπαϊκό διακομιστή ενώ το ίδιο αίτημα από την Ασία φτάνει σε έναν ασιατικό διακομιστή, ακόμη και αν η διεύθυνση IP και στις δύο περιπτώσεις είναι πανομοιότυπη. Αν ο ασιατικός κόμβος anycast αντιμετωπίζει πρόβλημα, οι ασιατικές μέτρηση το εντοπίζουν ενώ οι ευρωπαϊκές μέτρηση δεν μπορούν, γιατί τα αιτήματά τους δεν φτάνουν ποτέ στον ίδιο φυσικό διακομιστή.

Οι αλλαγές BGP routing μπορούν να προκαλέσουν προσωρινά ή παρατεταμένα προβλήματα προσπελασιμότητας για συγκεκριμένες περιοχές. Όταν μια δρομολόγηση border gateway protocol αποσυρθεί ή τροποποιηθεί, η κυκλοφορία που προηγουμένως ρέει μέσω ενός άμεσου δρόμου μπορεί να δρομολογηθεί ξανά μέσω πιο μακρών, πιθανώς συμφορημένων διαδρομών, αυξάνοντας τη χρονοκαθυστέρηση και μερικές φορές προκαλώντας απώλεια πακέτων. Αυτά τα BGP συμβάντα είναι συνηθισμένα, συμβαίνουν χιλιάδες φορές ανά ημέρα παγκοσμίως, και ο αντίκτυπός τους είναι εγγενώς περιφερειακός. Ένα σύστημα παρακολούθησης πολλών περιοχών βιώνει αυτά τα συμβάντα κατευθείαν μέσω των κατανεμημένων μέτρησή του, ανιχνεύοντας το αντίκτυπο σε κάθε περιοχή ανεξάρτητα παρά να βασίζεται σε ένα μόνο σημείο υπεροπτείας που μπορεί ή δεν μπορεί να επηρεάζεται.

Από Ανίχνευση σε Δράση και Γνώση Τι Πρέπει να Διορθώσετε

Ανίχνευση χωρίς δράσιμες πληροφορίες είναι απλώς ένα συναγερμό που θορυβεί χωρίς να δείχνει προς μια λύση. Η αξία της παρακολούθησης πολλών περιοχών εκτείνεται πέρα από το να σας πει ότι κάτι δεν πάει καλά. Σας λέει πού δεν πάει καλά και, μέσω του σχεδίου αποτυχίας, υποδείχνει τι είδος δεν πάει καλά. Αυτή η διαγνωστική περιεχόμενα μετατρέπει τη διαδικασία ανταπόκρισης περιστατικού από μια τρελή αναζήτηση σε αρχεία και πίνακες ελέγχου σε μια στοχευμένη διερεύνηση που ξεκινά με μια ισχυρή υπόθεση σχετικά με την αιτία του προβλήματος.

Όταν οι ειδοποιήσεις παρακολούθησης δείχνουν ότι μια μόνο περιοχή έχει αποτύχει ενώ άλλες παραμένουν υγιείς, ο χειριστής μπορεί αμέσως να εστιάσει τη διερεύνησή του στη δικτυακή διαδρομή αυτής της περιοχής. Αναφέρει ο κόμβος CDN edge σε αυτή την περιοχή προβλήματα; Υπάρχει ενεργό BGP περιστατικό που επηρεάζει τους παρόχους διέλευσης σε αυτήν την περιοχή; Έχει ο επιλυτής DNS για αυτή την περιοχή αποθηκεύσει μια ξεπερασμένη ή λανθασμένη εγγραφή; Κάθε ένα από αυτά τα ερωτήματα μπορεί να απαντηθεί γρήγορα, και οι απαντήσεις οδηγούν σε συγκεκριμένες ενέργειες διορθώσεων: καθαρίστε το CDN cache για αυτή την περιοχή, επικοινωνήστε με τον παρόχο διέλευσης, ή επιβάλετε ανανέωση DNS. Χωρίς το γεωγραφικό περιεχόμενα που παρέχεται από την παρακολούθηση πολλών περιοχών, ο χειριστής θα ερευνούσε τυφλά, ελέγχοντας κάθε δυνατό σημείο αποτυχίας παρά τα που είναι πιο πιθανό να είναι υπεύθυνα.

Η πλατφόρμα παρακολούθησης χρόνου ενεργού συζευγνύει τα αποτελέσματα ελέγχου πολλών περιοχών με ιστορικά δεδομένα που προσθέτουν χρονικό περιεχόμενα σε χωρικό περιεχόμενα. Αν η ίδια περιοχή έχει αντιμετωπίσει αποτυχίες στην ίδια ώρα της ημέρας σε προηγούμενες περιστάσεις, αυτό υποδείχνει ένα επαναλαμβανόμενο ζήτημα όπως ένα προγραμματισμένο παράθυρο συντήρησης σε έναν παρόχο διέλευσης ή ένα προβλέψιμο σχέδιο κυκλοφορίας που προκαλεί προβλήματα χωρητικότητας κατά τις ώρες αιχμής. Αν η αποτυχία είναι μια πρώτη εμφάνιση χωρίς ιστορικό προηγούμενο, είναι πιο πιθανό ένα οξύ περιστατικό που απαιτεί άμεση προσοχή. Ο συνδυασμός γεωγραφικού και χρονικού περιεχομένα δίνει στους χειριστές την πληρέστερη δυνατή εικόνα τι συμβαίνει, πού συμβαίνει, και εάν έχει συμβεί προηγουμένως.

Συχνές Ερωτήσεις

Ποιες είναι οι έξι τοποθεσίες που χρησιμοποιούνται για παρακολούθηση

Η πλατφόρμα παρακολούθησης χρησιμοποιεί τοποθεσίες μέτρησης κατανεμημένες σε Βόρεια Αμερική, Ευρώπη και Ασία για να παρέχει καθολική κάλυψη. Οι συγκεκριμένες τοποθεσίες επιλέγονται για να αντιπροσωπεύσουν τους κύριους κόμβους δρομολόγησης διαδικτύου όπου ρέει η πλειονότητα της παγκόσμιας κυκλοφορίας ιστού.

Τι συμβαίνει όταν μόνο μια τοποθεσία ανιχνεύσει αποτυχία

Μια αποτυχία σε μια περιοχή ενεργοποιεί μια ειδοποίηση που υποδείχνει ένα περιφερειακό ζήτημα και όχι μια καθολική διακοπή. Η ειδοποίηση περιλαμβάνει τη συγκεκριμένη τοποθεσία που αποτύχει και τις λεπτομέρειες απόκρισης, βοηθώντας το χειριστή να προσδιορίσει εάν το ζήτημα είναι σε ένα CDN edge, έναν παρόχο διέλευσης ή έναν επιλυτή DNS που εξυπηρετεί αυτή την περιοχή.

Μπορεί η παρακολούθηση πολλών περιοχών να ανιχνεύσει αργή απόδοση πριν από μια πλήρη διακοπή

Ναι. Η παρακολούθηση χρόνου απόκρισης σε όλες τις έξι τοποθεσίες αποκαλύπτει υποβάθμιση σε συγκεκριμένες περιοχές ακόμη και όταν ο ιστοχώρος παραμένει τεχνικά προσβάσιμος. Ένας χρόνος απόκρισης που έχει διπλασιαστεί από τη βάση δεδομένων σε μια περιοχή ενώ παραμένει σταθερός σε άλλες είναι ένα σήμα πρόειδοποίησης που επιτρέπει στο χειριστή να διερευνήσει πριν οι χρήστες αντιμετωπίσουν πλήρη αποτυχία.

Πόσο συχνά οι έλεγχοι εκτελούνται από κάθε τοποθεσία

Η συχνότητα ελέγχου είναι ρυθμιζόμενη ανάλογα με το σχέδιο παρακολούθησης. Κάθε χρονικό διάστημα ελέγχου ενεργοποιεί ταυτόχρονες μέτρηση από όλες τις έξι τοποθεσίες, διασφαλίζοντας ότι κάθε έλεγχος παρέχει ένα πλήρες γεωγραφικό στιγμιότυπο παρά μια παρατήρηση σε ένα σημείο.

Λειτουργεί η παρακολούθηση πολλών περιοχών με ιστοχώρους πίσω από Cloudflare ή άλλα CDN

Ναι, και οι ιστοχώροι που εξυπηρετούνται από CDN είναι στην πραγματικότητα εκεί που παρέχει το μεγαλύτερο αξία η παρακολούθηση πολλών περιοχών. Τα ζητήματα CDN edge είναι εγγενώς περιφερειακά, και μόνο η παρακολούθηση πολλών περιοχών μπορεί να ανιχνεύσει όταν ένα συγκεκριμένο CDN edge υποβαθμίζεται ενώ άλλα παραμένουν υγιή.

Είναι χρήσιμο για ιστοχώρους με κυκλοφορία από μόνο μια χώρα

Ακόμη και οι ιστοχώροι με γεωγραφικά συγκεντρωμένη κυκλοφορία επωφελούνται από την παρακολούθηση πολλών περιοχών επειδή τα προβλήματα δικτυακής διαδρομής μπορούν να επηρεάσουν οποιαδήποτε διαδρομή. Επιπλέον, τα crawler μηχανής αναζήτησης προσπελάζουν ιστοχώρους από πολλές περιοχές, οπότε μια περιφερειακή διακοπή που μπλοκάρει τη Googlebot από το crawling επηρεάζει το SEO ακόμη και αν οι ανθρώπινοι επισκέπτες στο κύριο αγορά παραμένουν ανεπηρέαστοι.