Überwachung von sechs Geostandorten gleichzeitig und wenn nur einer ausfällt, weiß ich genau, wo das Problem liegt

Der Morgen begann mit einem Support-Ticket eines Kunden aus Singapur, der sagte, dass die Website down war. Das Überwachungs-Dashboard, das von einem einzelnen Server in Frankfurt aus lief, zeigte alles in Grün. Alle Checks bestanden. Die Antwortzeiten waren normal. Die Website war online. Außer sie war nicht online, zumindest nicht für alle, die über bestimmte asiatische Netzwerk-Pfade weitergeleitet wurden. Das Problem erwies sich als regionales Routing-Problem bei einem vorgelagerten Provider, das den Datenverkehr aus Südostasien beeinträchtigt, während der Zugriff aus Europa und Nordamerika völlig unbeeinträchtigt blieb. Das Überwachungssystem, das treu von seinem einen Standpunkt in Deutschland aus prüfte, hatte keine Möglichkeit, ein Problem zu erkennen, das es von dort aus nicht sehen konnte.

Dieser Vorfall und die mehreren ähnlichen, die in den nächsten Jahren folgten, zeigten eine grundlegende Einschränkung der Überwachung von einem einzigen Standort, die im Rückblick offensichtlich wirkt, aber überraschend leicht zu übersehen ist. Das Internet ist kein einheitliches Netzwerk, in dem alle Pfade zum gleichen Ziel über die gleiche Infrastruktur führen. Es ist ein Geflecht miteinander verbundener autonomer Systeme, Peering-Vereinbarungen, CDN-Edge-Knoten und DNS-Resolver, die unterschiedliche Erfahrungen für Benutzer in verschiedenen geografischen Regionen schaffen. Eine Website kann aus Europa perfekt erreichbar sein, während sie gleichzeitig von Teilen Asiens aus unerreichbar ist, vollständig funktionsfähig aus Nordamerika, während es von Südamerika aus zu Paketverlusten kommt, und schnell von einer Stadt aus, während sie von einer anderen Stadt im selben Land aus langsam ist.

Die Lösung, die uptime.yeb.to implementiert, ist die gleichzeitige Überwachung von sechs geografischen Standorten, die auf mehrere Kontinente verteilt sind. Jeder Check läuft von allen sechs Standorten innerhalb des gleichen Zeitfensters, und die Ergebnisse werden verglichen, um festzustellen, ob ein Problem global oder regional ist. Wenn alle sechs Standorte einen Fehler melden, ist die Website überall wirklich down. Wenn ein oder zwei Standorte einen Fehler melden, während die anderen erfolgreich sind, ist das Problem regional, und die fehlgeschlagenen Standorte grenzen sofort ein, wo das Problem liegt. Diese geografische Triangulation verwandelt die Überwachung von einem binären "oben oder unten"-Signal in eine nuancierte Karte der Verfügbarkeit, die widerspiegelt, wie das Internet tatsächlich funktioniert.

Warum die Überwachung von einem einzigen Standort zu gefährlichen blinden Flecken führt

Die meisten Uptime-Überwachungsdienste, einschließlich vieler bekannter, prüfen standardmäßig von einem einzigen Standort oder erlauben Benutzern, eine primäre Überwachungsregion auszuwählen. Dieser Ansatz funktioniert perfekt zum Erkennen kompletter Ausfälle, bei denen der Origin-Server down ist und niemand irgendwo auf die Website zugreifen kann. Bei diesen katastrophalen Ausfällen ist ein einzelner Probe ausreichend, da das Problem universell ist. Aber kompletter Server-Ausfall ist nur eine Kategorie von Ausfällen, und zunehmend ist es nicht einmal die häufigste. Moderne Web-Infrastruktur mit ihren Ebenen von CDNs, Load-Balancern, DNS-Failover und Edge-Caching hat vollständige Ausfälle selten gemacht, während sie teilweise, regionale und intermittierende Ausfälle häufiger gemacht hat.

CDN-bezogene Probleme sind die häufigste Quelle regionaler Diskrepanzen. Content Delivery Networks funktionieren, indem Inhalte auf Edge-Servern zwischengespeichert werden, die auf der ganzen Welt verteilt sind, und jeder Edge-Server bedient Besucher, die geografisch am nächsten bei ihm sind. Wenn ein CDN-Edge-Knoten in einer bestimmten Region Probleme hat, ob Hardwarefehler, Fehlkonfiguration oder Kapazitätsüberlastung, erleben Besucher, die zu diesem Edge-Knoten weitergeleitet werden, beeinträchtigte Leistung oder völlige Unerreichbarkeit, während Besucher, die zu gesunden Edge-Knoten weitergeleitet werden, kein Problem sehen. Ein Monitor für einen einzigen Standort, der zufällig zu einem gesunden Edge-Knoten weitergeleitet wird, meldet alles als normal, während eine ganze Region voller Besucher beeinträchtigt ist.

DNS-Propagierungsprobleme schaffen eine andere Klasse regionaler Ausfälle. Wenn DNS-Datensätze aktualisiert werden, propagieren sich die Änderungen durch die globale DNS-Infrastruktur mit unterschiedlichen Geschwindigkeiten, abhängig von TTL-Werten, Resolver-Caching-Verhalten und dem spezifischen Auflösungspfad, dem jede Region folgt. Während des Propagierungsfensters können einige Regionen die Domäne zur alten IP-Adresse auflösen, während andere zur neuen auflösen. Wenn die alte IP-Adresse keinen Datenverkehr mehr bedient, erleben die Regionen, die immer noch auf sie zeigen, einen Ausfall, den die Regionen, die bereits auf die neue IP zeigen, nie sehen werden. Ein Multi-Region-Überwachungs-Setup erkennt dies sofort, da einige Probes fehlschlagen, während andere erfolgreich sind, was ein Muster erzeugt, das charakteristisch für DNS-Propagierungsprobleme ist und sich von Server-Level-Problemen unterscheidet.

Sechs Probes und welche Fehlermuster jeweils offenbaren

Die Kraft von sechs gleichzeitigen Probes liegt nicht nur darin, Fehler zu erkennen, sondern sie zu diagnostizieren. Verschiedene Fehlermuster entsprechen verschiedenen Kategorien von Problemen, und ein erfahrener Operator kann die Ursache oft allein aus dem Überwachungsmuster identifizieren, bevor er sogar ein Terminal-Fenster öffnet. Wenn alle sechs Probes gleichzeitig mit Connection-Timeout-Fehlern ausfallen, ist der Origin-Server oder sein Netzwerk wahrscheinlich unerreichbar, was auf einen Server-Crash, einen Hosting-Provider-Ausfall oder ein Netzwerk-Level-Problem im Rechenzentrum hindeutet. Wenn alle sechs Probes mit HTTP-Fehlerantworten wie 502 oder 503 ausfallen, ist der Server erreichbar, aber die Anwendung ist kaputt, was auf einen Deployment-Fehler, Datenbankfehler oder Anwendungs-Level-Crash hindeutet.

Wenn ein oder zwei Probes ausfallen, während die anderen erfolgreich sind, erzählt das Muster eine regionale Geschichte. Wenn die fehlgeschlagenen Probes beide in Asien sind, während die europäischen und nordamerikanischen Probes erfolgreich sind, ist das Problem fast sicher im Netzwerkpfad zwischen Asien und dem Origin-Server, egal ob bei einem CDN-Edge, einem Transit-Provider oder einem regionalen DNS-Resolver. Wenn der fehlgeschlagene Probe in der gleichen Region wie der Origin-Server ist, während entfernte Probes erfolgreich sind, könnte das Problem auf Netzwerk-Level beim Hosting-Provider liegen, mit entfernten Probes, die von einem CDN-Cache bedient werden, der den Origin-Fehler verdeckt. Jedes Muster verengt das Diagnosefeld und beschleunigt die Zeit bis zur Lösung.

Antwortzeit-Variationen über Probes hinweg liefern ein subtileres, aber gleichermaßen wertvolles Signal. Wenn alle sechs Probes erfolgreiche Antworten zeigen, aber die Antwortzeit einer Region sich gegenüber ihrem historischen Baseline verdoppelt hat, erleben diese Region Degradation, die noch nicht zu einem kompletten Fehler vorangeschritten ist. Degradation zu erkennen, bevor sie zu einem Ausfall wird, ist eine der wertvollsten Möglichkeiten der Multi-Region-Überwachung, da sie dem Operator ein Zeitfenster gibt, um zu untersuchen und einzugreifen, bevor Benutzer in dieser Region anfangen, Support-Tickets einzureichen. Das Überwachungs-Dashboard zeigt Antwortzeiten für alle sechs Standorte auf einer einzigen Timeline an, was regionale Degradationsmuster auf einen Blick sichtbar macht.

Geografisches Routing und die Probleme, die es verbirgt

Moderne Internet-Infrastruktur nutzt geografisches Routing umfangreich und leitet Benutzer zum nächsten verfügbaren Server oder CDN-Edge auf der Grundlage ihres Standorts. Dieses Routing ist generell vorteilhaft, da es die Latenz reduziert und die Leistung für die Mehrheit der Benutzer verbessert. Aber es bedeutet auch, dass der Pfad, den eine Anfrage von Punkt A zu Punkt B nimmt, dramatisch variiert, abhängig davon, wo Punkt A ist. Ein Überwachungs-Probe in New York und ein Überwachungs-Probe in Tokio werden völlig unterschiedliche Netzwerk-Pfade zum gleichen Website nehmen, auf dem Weg durch verschiedene ISPs, verschiedene Peering-Exchanges und verschiedene CDN-Edges. Eine Obstruktion irgendwo entlang eines Pfads kann von dem anderen unsichtbar sein.

Anycast-Routing, das von den meisten großen CDNs und DNS-Providern verwendet wird, fügt eine weitere Ebene der Komplexität hinzu. Mit Anycast wird die gleiche IP-Adresse von mehreren geografischen Standorten aus angekündigt, und die Routing-Infrastruktur des Internets leitet jede Anfrage zum nächsten ankündigenden Standort. Dies bedeutet, dass eine DNS-Auflösung oder CDN-Anfrage aus Europa einen europäischen Server erreicht, während die gleiche Anfrage aus Asien einen asiatischen Server erreicht, obwohl die IP-Adresse in beiden Fällen identisch ist. Wenn der asiatische Anycast-Knoten ein Problem hat, erkennen asiatische Probes dies, während europäische Probes nicht können, da ihre Anfragen nicht einmal den gleichen physischen Server erreichen.

BGP-Routing-Änderungen können vorübergehende oder anhaltende Erreichbarkeitsprobleme für bestimmte Regionen verursachen. Wenn eine Border-Gateway-Protocol-Route zurückgezogen oder geändert wird, kann Datenverkehr, der zuvor über einen direkten Pfad floss, über längere, möglicherweise überlastete Pfade umgeleitet werden, was Latenz erhöht und manchmal Paketverlust verursacht. Diese BGP-Ereignisse sind häufig und passieren global tausende Male pro Tag, und ihre Auswirkung ist inherent regional. Ein Multi-Region-Überwachungs-System erlebt diese Ereignisse firsthand über seine verteilten Probes, erkennt die Auswirkung auf jede Region unabhängig, anstatt sich auf einen einzelnen Standpunkt zu verlassen, der möglicherweise oder möglicherweise nicht beeinträchtigt ist.

Von der Erkennung zur Aktion und zu wissen, was zu beheben ist

Erkennung ohne Handlungsinformationen ist nur ein Alarm, der Lärm macht, ohne auf eine Lösung hinzuweisen. Der Wert der Multi-Region-Überwachung geht über das Sagen hinaus, dass etwas falsch ist. Es sagt dir, wo es falsch ist, und durch das Fehlermuster, schlägt es vor, welche Art von falsch es ist. Dieser Diagnosekontext verwandelt den Incident-Response-Prozess von einer hektischen Suche durch Logs und Dashboards in eine gezielte Untersuchung, die mit einer starken Hypothese über die Grundursache beginnt.

Wenn die Überwachungs-Alerts zeigen, dass eine einzelne Region fehlgeschlagen ist, während andere gesund bleiben, kann der Operator seine Untersuchung sofort auf den Netzwerkpfad dieser Region konzentrieren. Meldet der CDN-Edge in dieser Region Probleme? Gibt es einen aktiven BGP-Incident, der Transit-Provider in diesem Bereich betrifft? Hat der DNS-Resolver für diese Region einen alten oder falschen Datensatz zwischengespeichert? Jede dieser Fragen kann schnell beantwortet werden, und die Antworten führen zu spezifischen Behebungsmaßnahmen: den CDN-Cache für diese Region leeren, den Transit-Provider kontaktieren oder eine DNS-Aktualisierung erzwingen. Ohne den geografischen Kontext, den die Multi-Region-Überwachung bietet, würde der Operator blind untersuchen, jeden möglichen Fehlerpunkt überprüfen, anstatt die, die wahrscheinlich verantwortlich sind.

Die Uptime-Überwachungsplattform verbindet die Multi-Region-Check-Ergebnisse mit historischen Daten, die zeitlichen Kontext zu räumlichem Kontext hinzufügen. Wenn die gleiche Region zu der gleichen Tageszeit bei früheren Gelegenheiten Ausfälle erlebt hat, deutet dies auf ein wiederkehrendes Problem hin, wie ein geplantes Wartungsfenster bei einem Transit-Provider oder ein vorhersehbares Verkehrsmuster, das während Stoßzeiten zu Kapazitätsproblemen führt. Wenn der Fehler ein Erste-Vorkommen ist, ohne historischen Präzedenzfall, ist er wahrscheinlicher ein akutes Incident, das sofortige Aufmerksamkeit erfordert. Die Kombination aus geografischem und zeitlichem Kontext gibt Operatoren das vollständigste mögliche Bild von dem, was passiert, wo es passiert, und ob es zuvor passiert ist.

Häufig gestellte Fragen

Welche sechs Standorte werden für die Überwachung verwendet

Die Überwachungsplattform nutzt Probe-Standorte, die auf Nordamerika, Europa und Asien verteilt sind, um globale Abdeckung zu bieten. Die spezifischen Standorte werden so ausgewählt, dass sie die wichtigsten Internet-Routing-Hubs darstellen, wo die Mehrheit des globalen Web-Verkehrs fließt.

Was passiert, wenn nur ein Standort einen Fehler erkennt

Ein Fehler an einem Standort löst einen Alert aus, der auf ein regionales Problem hinweist, anstatt auf einen globalen Ausfall. Der Alert enthält den spezifischen Standort, der fehlgeschlagen ist, und die Antwortdetails, die dem Operator helfen zu bestimmen, ob das Problem bei einem CDN-Edge, einem Transit-Provider oder einem DNS-Resolver liegt, der diese Region bedient.

Kann Multi-Region-Überwachung langsame Leistung vor einem kompletten Ausfall erkennen

Ja. Die Antwortzeit-Überwachung über alle sechs Standorte offenbart Degradation in bestimmten Regionen, selbst wenn die Website technisch erreichbar bleibt. Eine Antwortzeit, die sich gegenüber ihrem Baseline in einer Region verdoppelt hat, während sie in anderen stabil bleibt, ist ein frühes Warnsignal, das dem Operator ermöglicht, zu untersuchen, bevor Benutzer einen kompletten Fehler erleben.

Wie oft laufen die Checks von jedem Standort

Die Check-Häufigkeit ist abhängig vom Überwachungsplan konfigurierbar. Jedes Check-Intervall löst gleichzeitige Probes von allen sechs Standorten aus und stellt sicher, dass jeder Check einen kompletten geografischen Snapshot bietet, anstatt eine einzelne Punktbeobachtung.

Funktioniert Multi-Region-Überwachung bei Sites hinter Cloudflare oder anderen CDNs

Ja, und CDN-fronted Sites sind tatsächlich dort, wo Multi-Region-Überwachung den meisten Wert bietet. CDN-Edge-Probleme sind inhärent regional, und nur Multi-Region-Überwachung kann erkennen, wenn ein bestimmtes CDN-Edge abgebaut wird, während andere gesund bleiben.

Ist dies nützlich für Sites mit Datenverkehr aus nur einem Land

Selbst Sites mit geografisch konzentriertem Datenverkehr profitieren von Multi-Region-Überwachung, da Netzwerkpfad-Probleme jede Route beeinträchtigen können. Darüber hinaus greifen Suchmaschinen-Crawler von mehreren Regionen auf Sites zu, daher wirkt sich ein regionaler Ausfall, der Googlebot vom Crawlen blockiert, auf SEO aus, selbst wenn menschliche Besucher in den Primärmärkten unbeeinträchtigt sind.