6개 지역에서 동시에 모니터링하고 하나라도 실패하면 정확히 문제가 어디인지 알 수 있습니다
아침이 시작되면서 싱가포르의 한 고객으로부터 웹사이트가 다운되었다는 지원 티켓이 들어왔습니다. 프랑크푸르트의 단일 서버에서 실행되는 모니터링 대시보드는 모든 것이 정상으로 표시했습니다. 모든 점검이 통과했습니다. 응답 시간이 정상이었습니다. 사이트는 작동 중이었습니다. 하지만 특정 아시아 네트워크 경로를 통해 라우팅되는 사람들에게는 작동하지 않았습니다. 문제는 동남아시아의 트래픽에 영향을 미쳤지만 유럽과 북미 접근에는 완전히 영향을 주지 않은 업스트림 제공자의 지역별 라우팅 문제였습니다. 독일의 한 지점에서만 충실히 확인하는 모니터링 시스템은 그곳에서 볼 수 없는 문제를 감지할 방법이 없었습니다.
이 사건과 그 다음 1년 동안 따라온 몇 가지 유사한 사건들은 단일 위치 모니터링의 근본적인 한계를 보여주었습니다. 이는 뒤돌아보면 명백하지만 놓치기 쉬운 것입니다. 인터넷은 모든 경로가 동일한 인프라를 통해 동일한 목적지로 연결되는 균일한 네트워크가 아닙니다. 이는 상호 연결된 자율 시스템, 피어링 계약, CDN 엣지 노드, DNS 리졸버의 웹으로 서로 다른 지역의 사용자에게 서로 다른 경험을 만듭니다. 웹사이트는 유럽에서 완벽하게 접근 가능하면서 동시에 아시아의 일부에서는 도달 불가능하고, 북미에서는 완전히 작동하면서 남미에서는 패킷 손실을 경험하며, 한 도시에서는 빠르고 같은 국가의 다른 도시에서는 느릴 수 있습니다.
uptime.yeb.to가 구현하는 솔루션은 6개의 지역에서 동시에 모니터링하는 것입니다. 모든 확인은 같은 시간 창 내에서 6개 위치 모두에서 실행되며, 결과를 비교하여 문제가 글로벌인지 지역별인지 판단합니다. 6개 위치 모두에서 실패를 보고하면 사이트는 어디에나 정말로 다운된 것입니다. 1~2개 위치에서 실패를 보고하고 다른 위치는 성공을 표시하면 문제는 지역별이며 실패한 위치가 문제가 어디에 있는지 즉시 좁혀줍니다. 이 지리적 삼각측량은 모니터링을 이진 "작동 또는 다운" 신호에서 인터넷이 실제로 작동하는 방식을 반영하는 가용성의 미묘한 맵으로 변환합니다.
단일 위치 모니터링이 위험한 사각지대를 만드는 이유
많은 유명한 서비스들을 포함한 대부분의 가동 시간 모니터링 서비스는 단일 위치에서 확인하거나 사용자가 하나의 주 모니터링 영역을 선택할 수 있도록 합니다. 이 접근 방식은 원본 서버가 다운되고 아무도 어디서나 사이트에 접근할 수 없는 완전한 중단을 감지하는 데 완벽하게 작동합니다. 이러한 치명적인 실패의 경우 단일 프로브면 충분합니다. 왜냐하면 문제가 보편적이기 때문입니다. 하지만 완전한 서버 실패는 중단의 한 가지 범주일 뿐이며, 점점 더 가장 일반적인 것도 아닙니다. CDN, 로드 밸런서, DNS 장애 조치, 엣지 캐싱이 포함된 현대 웹 인프라는 전체 중단을 드물게 만들었지만 부분적, 지역별, 간헐적 실패를 더 빈번하게 만들었습니다.
CDN 관련 문제는 지역별 불일치의 가장 일반적인 원인입니다. 콘텐츠 전달 네트워크는 세계에 분산된 엣지 서버에 콘텐츠를 캐시하여 작동하며, 각 엣지 서버는 지리적으로 가장 가까운 방문자를 제공합니다. 특정 지역의 CDN 엣지 노드가 하드웨어 실패, 구성 오류, 용량 과부하 등의 문제를 경험하면 해당 엣지 노드로 라우팅되는 방문자는 성능 저하 또는 완전한 불가용을 경험하고 건강한 엣지 노드로 라우팅되는 방문자는 문제를 보지 못합니다. 우연히 건강한 엣지 노드로 라우팅되는 단일 위치 모니터는 모든 것이 정상이라고 보고하는 동안 전체 지역의 방문자가 영향을 받습니다.
DNS 전파 문제는 지역별 실패의 또 다른 클래스를 만듭니다. DNS 레코드가 업데이트되면 변경 사항은 TTL 값, 리졸버 캐싱 동작, 각 지역이 따르는 특정 해석 경로에 따라 다른 속도로 글로벌 DNS 인프라를 통해 전파됩니다. 전파 창 동안 일부 지역은 도메인을 이전 IP 주소로 해석하고 다른 지역은 새 주소로 해석할 수 있습니다. 이전 IP가 더 이상 트래픽을 제공하지 않으면 여전히 이전 IP를 가리키는 지역은 이미 새 IP를 가리키는 지역이 절대 보지 못할 중단을 경험합니다. 다중 지역 모니터링 설정은 일부 프로브가 실패하고 다른 프로브는 성공하기 때문에 이를 즉시 감지하여 DNS 전파 문제의 특징이고 서버 수준 문제와 구별되는 패턴을 만듭니다.
6개 프로브와 각 실패 패턴이 드러내는 것
6개의 동시 프로브의 력은 실패를 감지하는 것뿐만 아니라 진단하는 것에 있습니다. 서로 다른 실패 패턴은 서로 다른 문제 범주에 해당하며, 경험 많은 운영자는 터미널 창을 열기도 전에 모니터링 패턴만으로 근본 원인을 파악할 수 있습니다. 6개 프로브 모두가 연결 시간 초과 오류로 동시에 실패하면 원본 서버 또는 그 네트워크에 도달할 수 없으며, 서버 충돌, 호스팅 제공자 중단 또는 데이터 센터의 네트워크 수준 문제를 시사합니다. 6개 프로브 모두가 502 또는 503과 같은 HTTP 오류 응답으로 실패하면 서버는 도달 가능하지만 애플리케이션이 손상되어 배포 오류, 데이터베이스 실패 또는 애플리케이션 수준 충돌을 시사합니다.
1~2개 프로브가 실패하고 다른 프로브가 성공하면 패턴은 지역별 이야기를 말합니다. 실패한 프로브가 모두 아시아에 있고 유럽과 북미 프로브가 성공하면 문제는 거의 확실히 아시아와 원본 서버 간의 네트워크 경로에 있으며, CDN 엣지, 통과 공급자 또는 지역 DNS 리졸버에 있을 수 있습니다. 실패한 프로브가 원본 서버와 같은 지역에 있고 멀리 떨어진 프로브가 성공하면 문제는 호스팅 제공자의 로컬 네트워크 수준에 있을 수 있으며, 원본 실패를 가리고 있는 CDN 캐시에서 멀리 떨어진 프로브를 제공할 수 있습니다. 각 패턴은 진단 필드를 좁히고 해결 시간을 단축합니다.
프로브 간의 응답 시간 변동은 더 미묘하지만 똑같이 귀중한 신호를 제공합니다. 6개 프로브 모두가 성공적인 응답을 표시하지만 한 지역의 응답 시간이 역사적 기준선에 비해 두 배가 되면 해당 지역은 아직 전체 실패로 진행되지 않은 성능 저하를 경험하고 있습니다. 성능 저하를 중단으로 진행되기 전에 포착하는 것은 다중 지역 모니터링의 가장 귀중한 기능 중 하나입니다. 왜냐하면 그것은 사용자가 지원 티켓을 제출하기 시작하기 전에 조사하고 개입할 시간의 창을 제공하기 때문입니다. 모니터링 대시보드는 6개 위치 모두에 대한 응답 시간을 단일 타임라인에 표시하여 지역별 성능 저하 패턴을 한눈에 볼 수 있게 합니다.
지리적 라우팅과 그것이 숨기는 문제
현대 인터넷 인프라는 지리적 라우팅을 광범위하게 사용하여 위치에 따라 가장 가까운 사용 가능한 서버 또는 CDN 엣지로 사용자를 안내합니다. 이 라우팅은 일반적으로 지연 시간을 줄이고 대부분의 사용자의 성능을 향상시키기 때문에 유리합니다. 하지만 또한 요청이 지점 A에서 지점 B로 가는 경로가 지점 A가 어디인지에 따라 극적으로 다르다는 것을 의미합니다. 뉴욕의 모니터링 프로브와 도쿄의 모니터링 프로브는 동일한 웹사이트에 도달하기 위해 완전히 다른 네트워크 경로를 가지고 있으며, 다른 ISP, 다른 피어링 교환, 다른 CDN 엣지를 통과합니다. 한 경로를 따라 어딘가에 있는 방해는 다른 경로에서는 보이지 않을 수 있습니다.
대부분의 주요 CDN과 DNS 제공자가 사용하는 Anycast 라우팅은 복잡성의 또 다른 계층을 추가합니다. Anycast를 사용하면 동일한 IP 주소가 여러 지리적 위치에서 공지되고 인터넷의 라우팅 인프라가 각 요청을 가장 가까운 공지 위치로 안내합니다. 이는 유럽의 DNS 해석 또는 CDN 요청이 유럽 서버에 도달하고 같은 IP 주소인 아시아의 동일한 요청이 아시아 서버에 도달한다는 것을 의미합니다. 아시아 Anycast 노드에 문제가 있으면 아시아 프로브는 그것을 감지하지만 유럽 프로브는 그 요청이 동일한 물리적 서버에 도달하지 않기 때문에 할 수 없습니다.
BGP 라우팅 변경은 특정 지역에 대한 임시 또는 장기간의 도달 가능성 문제를 일으킬 수 있습니다. 보더 게이트웨이 프로토콜 경로가 철회되거나 변경되면 이전에 직접 경로를 통해 흐르던 트래픽이 더 길고 잠재적으로 혼잡한 경로를 통해 재라우팅되어 지연 시간을 증가시키고 때로는 패킷 손실을 일으킵니다. 이러한 BGP 이벤트는 일반적이며 매일 전 세계적으로 수천 번 발생합니다. 그 영향은 본질적으로 지역적입니다. 다중 지역 모니터링 시스템은 분산된 프로브를 통해 이러한 이벤트를 직접 경험하여 단일 지점에서 각 지역에 미치는 영향을 독립적으로 감지하는 것이 아니라 다행일 수도, 아닐 수도 있습니다.
감지에서 조치로, 문제를 알고 수정할 수 있도록
실행 가능한 정보 없는 감지는 해결책을 향해 가리키지 않으면서 소음을 내는 알람일 뿐입니다. 다중 지역 모니터링의 가치는 무언가가 잘못되었다고 알려주는 것을 넘어 확장됩니다. 그것이 어디가 잘못되었는지, 그리고 실패 패턴을 통해 어떤 종류의 잘못인지를 알려줍니다. 이 진단 맥락은 사건 대응 프로세스를 광범위한 로그와 대시보드 검색에서 근본 원인에 대한 강력한 가설로 시작하는 대상 조사로 변환합니다.
모니터링 알림이 단일 지역이 실패했고 다른 지역이 건강한 상태를 유지한다고 보여주면 운영자는 즉시 해당 지역의 네트워크 경로에 대한 조사에 집중할 수 있습니다. 해당 지역의 CDN 엣지가 문제를 보고하고 있습니까? 해당 지역의 통과 공급자에 영향을 미치는 활성 BGP 사건이 있습니까? 해당 지역의 DNS 리졸버가 오래된 또는 잘못된 레코드를 캐시했습니까? 이러한 각 질문에 빠르게 답할 수 있으며, 답변은 구체적인 교정 조치로 이어집니다. 해당 지역에 대한 CDN 캐시를 제거하거나, 통과 공급자에 연락하거나, DNS 새로 고침을 강제합니다. 다중 지역 모니터링에서 제공하는 지리적 맥락 없이 운영자는 블라인드로 조사하고 가능성 있는 모든 실패 지점이 아니라 가장 책임이 있을 가능성이 있는 지점을 확인합니다.
가동 시간 모니터링 플랫폼은 다중 지역 확인 결과를 시간적 맥락을 공간적 맥락에 더하는 역사적 데이터와 쌍으로 연결합니다. 동일한 지역이 이전 기회에 하루 중 같은 시간에 실패를 경험했으면 통과 공급자의 예약된 유지보수 창이나 피크 시간 동안 용량 문제를 유발하는 예측 가능한 트래픽 패턴과 같은 반복 문제를 제안합니다. 실패가 역사적 선례가 없는 첫 번째 발생이면 즉시 관심이 필요한 급성 사건일 가능성이 더 큽니다. 지리적 및 시간적 맥락의 조합은 무엇이 일어나고 있는지, 어디가 일어나고 있는지, 이전에 일어났는지를 운영자에게 가장 완전한 그림을 제공합니다.
자주 묻는 질문
모니터링에 어떤 6개 위치를 사용합니까
모니터링 플랫폼은 글로벌 커버리지를 제공하기 위해 북미, 유럽, 아시아에 분산된 프로브 위치를 사용합니다. 특정 위치는 글로벌 웹 트래픽의 대부분이 흐르는 주요 인터넷 라우팅 허브를 나타내도록 선택됩니다.
한 위치만 실패를 감지하면 어떻게 됩니까
단일 위치 실패는 글로벌 중단이 아니라 지역별 문제를 나타내는 경고를 트리거합니다. 알림에는 실패한 특정 위치와 응답 세부 정보가 포함되어 운영자가 문제가 CDN 엣지, 통과 공급자 또는 해당 지역을 제공하는 DNS 리졸버에 있는지 판단할 수 있습니다.
다중 지역 모니터링이 전체 중단 전에 느린 성능을 감지할 수 있습니까
예. 6개 위치 모두에 걸친 응답 시간 모니터링은 사이트가 기술적으로 접근 가능하더라도 특정 지역의 성능 저하를 드러냅니다. 기준선에서 한 지역에서 두 배가 된 응답 시간은 다른 지역에서는 안정적으로 유지되며, 운영자가 사용자가 완전한 실패를 경험하기 전에 조사할 수 있도록 하는 조기 경고 신호입니다.
각 위치에서 확인은 얼마나 자주 실행됩니까
확인 빈도는 모니터링 계획에 따라 구성 가능합니다. 각 확인 간격은 모든 6개 위치에서 동시 프로브를 트리거하여 단일 지점 관찰이 아니라 완전한 지리적 스냅샷을 제공하도록 합니다.
다중 지역 모니터링이 Cloudflare 또는 다른 CDN 뒤의 사이트에 작동합니까
예, CDN 앞 사이트는 실제로 다중 지역 모니터링이 가장 많은 가치를 제공하는 곳입니다. CDN 엣지 문제는 본질적으로 지역적이며, 특정 CDN 엣지가 성능이 저하되고 다른 엣지는 건강할 때만 다중 지역 모니터링이 감지할 수 있습니다.
한 국가에서만 트래픽이 있는 사이트에 유용합니까
지리적으로 집중된 트래픽을 가진 사이트도 다중 지역 모니터링의 이점이 있습니다. 왜냐하면 네트워크 경로 문제는 모든 경로에 영향을 미칠 수 있기 때문입니다. 또한 검색 엔진 크롤러는 여러 지역에서 사이트에 접근하므로 Googlebot이 크롤링하는 것을 차단하는 지역별 중단은 주 시장의 인간 방문자가 영향을 받지 않더라도 SEO에 영향을 미칩니다.