6つの地理的位置から同時に監視して、1つだけ障害が発生したら問題がどこにあるかを正確に把握できます

その朝、シンガポール在住の顧客からウェブサイトがダウンしているというサポートチケットが届きました。フランクフルトの単一サーバーから実行されていた監視ダッシュボードはすべて緑色で表示されていました。すべてのチェックが成功しており、応答時間も通常通りです。サイトは稼働していました。少なくとも、東南アジアの特定のネットワークパスを経由してアクセスする人にとってはそうではありませんでした。問題の原因は、アップストリームプロバイダーの地域的なルーティング障害で、東南アジアからのトラフィックに影響を与え、ヨーロッパと北米へのアクセスはまったく影響を受けませんでした。ドイツの1つの視点からチェックを実行していた監視システムは、そこから見ることができない問題を検出する方法がありませんでした。

この事件とその後の1年間に起こった同様の事件は、単一の場所からの監視の基本的な制限を示しており、後からは明らかに見えますが、意外と見落としやすいものです。インターネットは、すべてのパスが同じ目的地に同じインフラストラクチャを通じて到達する均一なネットワークではありません。相互接続された自律システム、ピアリング契約、CDNエッジノード、およびDNSリゾルバーのネットワークであり、異なる地理的領域のユーザーに異なる経験を作成します。ウェブサイトはヨーロッパから完璧にアクセス可能でも、アジアの一部からはまったくアクセスできず、北米から完全に機能していても、南米から操作損失を経験し、1つの都市からは速くても同じ国の別の都市からは遅い可能性があります。

uptime.yeb.toが実装するソリューションは、複数の大陸に分散された6つの地理的位置からの同時監視です。すべてのチェックは同じ時間ウィンドウ内のすべての6つの位置から実行され、結果は比較されて、問題がグローバルか地域的かが判定されます。6つの位置すべてが障害を報告する場合、サイトはどこでも本当にダウンしています。1つまたは2つの位置が障害を報告し、他の場所で成功を示す場合、問題は地域的であり、失敗している位置は問題がどこにあるかをすぐに絞り込みます。この地理的三角測量は、監視をバイナリ「稼働/停止」信号から、インターネットが実際にどのように機能するかを反映した微妙な可用性マップに変換します。

単一の場所からの監視が危険なブラインドスポットを作成する理由

有名なものを含む大部分のアップタイム監視サービスは、単一の場所からのチェックがデフォルトであるか、ユーザーが1つのプライマリ監視領域を選択できるようにします。このアプローチは、オリジンサーバーがダウンしており、どこにいても誰もサイトにアクセスできない完全な停止を検出するのに完璧に機能します。これらの壊滅的な障害については、問題が普遍的であるため、単一のプローブで十分です。しかし、完全なサーバー障害は停止の1つのカテゴリに過ぎず、ますます最も一般的なものではなくなっています。CDN、ロードバランサー、DNSフェイルオーバー、エッジキャッシングの層を備えた最新のウェブインフラストラクチャは、完全な停止を稀にしながら、部分的、地域的、および断続的な障害をより頻繁にしています。

CDN関連の問題は、地域的な矛盾の最も一般的な原因です。コンテンツ配信ネットワークは、世界中に分散されたエッジサーバーでコンテンツをキャッシュすることで動作し、各エッジサーバーはそれに地理的に最も近い訪問者にサービスを提供します。特定の地域のCDNエッジノードがハードウェア障害、誤設定、または容量過負荷などの問題を経験する場合、そのエッジノードにルーティングされた訪問者はパフォーマンスの低下または完全な利用不可を経験し、健全なエッジノードにルーティングされた訪問者は問題が見えません。健全なエッジノードにルーティングされるため、単一の場所のモニターは、地域全体の訪問者が影響を受けているときにすべてが正常であると報告します。

DNS伝播の問題は、地域的な障害の別のクラスを作成します。DNSレコードが更新されると、TTL値、リゾルバーキャッシング動作、および各地域が従う特定の解決パスに応じて、変更は異なる速度でグローバルDNSインフラストラクチャを通じて伝播します。伝播ウィンドウ中、一部の領域は古いIPアドレスにドメインを解決し、他の領域は新しいドメインに解決します。古いIPがもはやトラフィックを提供していない場合、それを指す領域は、新しいIPにすでに指している領域が見ることのない停止を経験します。マルチリージョン監視セットアップはこれを即座に検出します。一部のプローブが失敗し、他のプローブが成功し、サーバーレベルの問題とは異なるDNS伝播の問題に特有のパターンを作成するため。

6つのプローブと各障害パターンが明らかにすること

6つの同時プローブの力は、障害を検出するだけでなく、診断することにあります。異なる障害パターンは問題のさまざまなカテゴリに対応し、経験豊富なオペレーターはターミナルウィンドウを開く前に、監視パターンだけから根本原因を特定できることがよくあります。6つのプローブすべてが接続タイムアウトエラーで同時に障害を報告する場合、オリジンサーバーまたはそのネットワークはおそらく到達不可能であり、サーバークラッシュ、ホスティングプロバイダーの停止、またはデータセンターのネットワークレベルの問題を示唆しています。6つのプローブすべてが502または503などのHTTPエラー応答で失敗する場合、サーバーには到達可能ですがアプリケーションは壊れており、展開エラー、データベース障害、またはアプリケーションレベルのクラッシュを示唆しています。

1つまたは2つのプローブが失敗し、他のプローブが成功する場合、パターンは地域的なストーリーを示しています。失敗しているプローブの両方がアジアにある場合、ヨーロッパおよび北米のプローブが成功しており、問題はほぼ確実にアジアとオリジンサーバーの間のネットワークパスにあり、CDNエッジ、トランジットプロバイダー、または地域DNSリゾルバーにあります。失敗しているプローブがオリジンサーバーと同じ地域にあり、遠いプローブが成功する場合、問題はホスティングプロバイダーのローカルネットワークレベルにあり、遠いプローブがオリジン障害をマスクするCDNキャッシュから提供されている可能性があります。各パターンは診断フィールドを絞り込み、解決までの時間を加速します。

プローブ全体の応答時間の変動は、より微妙でありながら同等の価値のある信号を提供します。6つのプローブすべてが成功した応答を示しているが、1つの地域の応答時間が履歴ベースラインと比較して2倍になった場合、その地域は完全な障害に進行していない劣化を経験しています。停止の前に劣化をキャッチすることは、マルチリージョン監視の最も価値のある機能の1つです。なぜなら、その地域のユーザーがサポートチケットを送信し始める前に、オペレーターが調査して介入する時間を与えるからです。監視ダッシュボードは、単一のタイムラインのすべての6つの場所の応答時間を表示し、地域的な劣化パターンを一目でVisible にします。

地理的ルーティングとそれが隠す問題

最新のインターネットインフラストラクチャは地理的ルーティングを広範囲に使用し、ユーザーを最も近い利用可能なサーバーまたはCDNエッジに利用可能なサーバーまたはCDNエッジに指示し、位置に基づいています。このルーティングは通常、遅延を減らし、大多数のユーザーのパフォーマンスを向上させるため、一般的に有益です。しかし、それはまた、リクエストがポイントAからポイントBへの経路が、ポイントAがどこにあるかに応じて劇的に異なることを意味しています。ニューヨークの監視プローブと東京の監視プローブは、同じウェブサイトに到達するために完全に異なるネットワークパスを取り、異なるISP、異なるピアリング交換、および異なるCDNエッジを通過します。1つのパスに沿った閉塞は他から見えないことができます。

ほとんどの主要なCDNおよびDNSプロバイダーで使用されるAnycastルーティングは、複雑さの別の層を追加します。Anycastでは、同じIPアドレスが複数の地理的位置から発表され、インターネットのルーティングインフラストラクチャは各リクエストを最も近い発表位置に指示します。これは、ヨーロッパからのDNS解決またはCDNリクエストがヨーロッパのサーバーに到達し、同じリクエストがアジアからアジアのサーバーに到達することを意味します。ただし、両方の場合のIPアドレスは同じです。アジアのAnycastノードに問題がある場合、アジアのプローブはそれを検出しますが、ヨーロッパのプローブは検出しません。リクエストがまったく同じ物理サーバーに到達しないためです。

BGPルーティングの変更により、特定の地域の一時的または長期的なリーチャビリティの問題が発生する可能性があります。ボーダーゲートウェイプロトコルルートが取り消されたり変更されたりすると、以前は直接パスを通じてフローしたトラフィックは、より長く、潜在的に混雑したパスを通じて再ルーティングされ、遅延が増加し、パケット損失が発生することがあります。これらのBGPイベントは一般的であり、グローバルに毎日数千回発生し、その影響は本質的に地域的です。マルチリージョン監視システムはその分散プローブを通じてこれらのイベントを直接経験し、各地域の影響を独立して検出し、影響を受ける可能性があるかもしれない単一の視点に頼るのではなく。

検出からアクションへ、修正するものを知る

アクション可能な情報のない検出は、単なるアラームであり、ソリューションへの指針なしに音を立てます。マルチリージョン監視の価値は、何が間違っているか、それが間違っているかを知ることを超えています。どこが間違っているか、失敗パターンを通じて、どのような種類の間違いかを示唆しています。この診断コンテキストは、インシデント対応プロセスを、ログとダッシュボードを通じた熱狂的な検索から、根本原因について強い仮説で始まるターゲット調査に変換します。

監視がある地域が失敗したことを示す一方で、他の地域が健全なままである場合、オペレーターはその地域のネットワークパスの調査に直ちに焦点を当てることができます。その地域のCDNエッジが問題を報告していますか?その地域でのトランジットプロバイダーに影響を与えるアクティブなBGPインシデントがありますか?その地域のDNSリゾルバーが古いまたは不正なレコードをキャッシュしていますか?これらの各質問は迅速に答えることができ、答えは特定の修復アクションにつながります。その地域のCDNキャッシュをパージ、トランジットプロバイダーに連絡、またはDNS更新を強制します。マルチリージョン監視によって提供される地理的コンテキストなしに、オペレーターは盲目的に調査し、可能性が最も高い場所ではなく、すべての可能な障害ポイントをチェックします。

アップタイム監視プラットフォームは、マルチリージョンチェック結果を、空間コンテキストに時間コンテキストを追加する履歴データと組み合わせます。同じ地域が前回の際に同じ時刻に失敗を経験した場合、それはトランジットプロバイダーでのスケジュール対象メンテナンスウィンドウまたは予測可能なトラフィックパターンなどのトランジットプロバイダーでのスケジュール対象メンテナンスウィンドウのような定期的な問題を示唆しています。障害が先例のない最初の発生である場合、それはすぐに注意が必要な急性インシデントの可能性が高くなります。地理的および時間的コンテキストの組み合わせにより、オペレーターは何が起こっているか、どこで起こっているか、以前に起こったかどうかについて、最も完全な可能な画像を得ます。

よくある質問

監視に使用される6つの場所はどこですか

監視プラットフォームは、グローバルカバレッジを提供するために、北米、ヨーロッパ、アジアに分散された探査機位置を使用します。特定の位置は、グローバルWebトラフィックの大部分が流れる主要なインターネットルーティングハブを表すために選択されます。

1つの場所だけが障害を検出した場合はどうなりますか

単一の場所の障害は、グローバルな停止ではなく、地域的な問題を示すアラートをトリガーします。アラートには、失敗した特定の場所と応答の詳細が含まれており、オペレーターが問題がCDNエッジ、トランジットプロバイダー、またはその地域にサービスを提供するDNSリゾルバーにあるかどうかを判定するのに役立ちます。

マルチリージョン監視は完全な停止の前に遅いパフォーマンスを検出できますか

はい。6つの場所すべての応答時間監視は、サイトが技術的にアクセス可能なままでも、特定の地域での劣化を明らかにします。履歴ベースラインから2倍になった応答時間が1つの地域で、他の地域では安定したままでは、オペレーターがユーザーの完全な障害を経験する前に調査できる早期警告信号です。

各場所からのチェックはどのくらいの頻度で実行されますか

チェックの頻度は、監視計画に応じてカスタマイズ可能です。各チェック間隔は、すべての6つの場所からの同時プローブをトリガーし、すべてのチェックが単一の点の観察ではなく、完全な地理的スナップショットを提供することを保証します。

マルチリージョン監視はCloudflareやその他のCDNの背後にあるサイトで機能しますか

はい、CDNフロント対象のサイトは、実際にマルチリージョン監視が最も価値を提供する場所です。CDNエッジの問題は本質的に地域的であり、マルチリージョン監視だけが、特定のCDNエッジが劣化している場合を検出でき、他は健全なままです。

トラフィックが1つの国からのみの場合に役立ちますか

地理的に集中したトラフィックを持つサイトでも、ネットワークパスの問題は任意のルートに影響を与える可能性があるため、マルチリージョン監視から利益を得ます。さらに、検索エンジンのクローラーは複数の地域からサイトにアクセスするため、Googlebotをクローリングするのを防ぐ地域的な停止は、主要市場の人間の訪問者が影響を受けない場合でもSEOに影響します。