Мониториране от шест геолокации наведнъж и ако само един откаже, знам точно къде е проблемът

Сутрешната смена започна с билет за поддръжка от клиент в Сингапур, казвайки че уебсайтът е паднал. Табло за мониториране, което работеше от един сървър във Франкфурт, показваше всичко зелено. Всички проверки минават. Времето за отговор е нормално. Сайтът бе горе. С изключение на това, че не беше горе, поне не за никого маршрутизиран през определени азиатски мрежови пътеки. Проблемът се оказа проблем с регионално маршрутизиране у един горен доставчик, който повлия на трафик от Югоизточна Азия, докато остави европейския и североамерикански достъп напълно незасегнат. Системата за мониториране, верно проверяваща от един единствен гледна точка в Германия, нямаше начин да открие проблем, който не можеше да види от място, където стоеше.

Този инцидент, и няколко подобни, които последваха през следващата година, демонстрира фундаментално ограничение на еднолокационното мониториране, което изглежда очевидно в задния си поглед, но е изненадващо лесно да се пропусне. Интернет не е еднакъв мрежа, където всички пътища водят до същата дестинация през същата инфраструктура. Това е мрежа от взаимосвързани автономни системи, договори за пиринг, CDN краищни възли и DNS разрешители, които създават различни преживявания за потребители в различни географски региони. Уебсайт може да бъде перфектно достъпен от Европа, докато едновременно е недостижим от части на Азия, напълно функционален от Северна Америка, докато преживява загуба на пакети от Южна Америка, и бърз от един град, докато е бавен от друг град в същата страна.

Решението, което uptime.yeb.to внедрява, е едновременно мониториране от шест географски локации, разпръснати по множество континенти. Всяка проверка работи от всичките шест локации в едно и също времево прозорче, и резултатите се сравняват, за да се определи дали проблемът е глобален или регионален. Когато всичките шест локации докладват неуспех, сайтът е наистина паднал навсякъде. Когато една или две локации докладват неуспех, докато останалите показват успех, проблемът е регионален, и неуспешните локации веднага стесняват къде се намирa проблемът. Тази географска триангулация трансформира мониториране от двоичен "горе или долу" сигнал в нюанс карта на наличност, която отразява как интернет наистина работи.

Защо еднолокационното мониториране създава опасни пропуски в зрението

Повечето услуги за мониториране на времето на работа, включително много добре познати, по подразбиране проверяват от един локация или позволяват на потребителите да изберат един основен регион за мониториране. Този подход работи идеално за обнаружаване на пълни прекъсвания, когато началният сървър е паднал и никой никъде не може да достъпи сайта. За тези катастрофални неуспехи, един сонд е достатъчен, защото проблемът е универсален. Но пълно отказ на сървър е само една категория прекъсване, и все по-малко то дори не е най-честата. Модерната уеб инфраструктура, със своите слоеве от CDN, балансьори на натоварване, DNS отказоустойчивост и пограничен кеш, направи пълните прекъсвания редки, докато направи частични, регионални и прекъсвани неуспехи по-чести.

CDN свързаните проблеми са най-честият източник на регионални несъответствия. Мрежите за доставка на съдържание работят чрез кеширане на съдържание на краищни сървъри, разпръснати по цял свят, и всеки краищен сървър обслужва посетителите, които са географски най-близо до него. Когато CDN краищен възел в конкретен регион преживее проблеми, дали хардуерен отказ, грешна конфигурация или претоварване на капацитета, посетителите маршрутизирани към този краищен възел преживеят деградирано представяне или пълна недостъпност, докато посетителите маршрутизирани към здрави краищни възли виждат никакъв проблем. Един локационен мониторър, който случайно бъде маршрутизиран към здрав краищен възел, ще докладва всичко като нормално, докато целия регион на посетители е засегнат.

DNS пропагационни проблеми създават друга класа регионални неуспехи. Когато DNS записите се актуализират, промените се разпространяват през глобалната DNS инфраструктура с различни скорости, в зависимост от TTL стойности, поведение на кеширане на разрешител и специфичния път на разрешаване, който всеки регион следва. По време на пропагационния прозорец, някои региони могат да разрешат домена до стария IP адрес, докато други го разрешават на новия. Ако старият IP вече не обслужва трафик, регионите, които все още сочат към него, преживяват прекъсване, което регионите, вече сочещи на новия IP, никога няма да видят. Мулти регионално мониториране набор открива това веднага, защото някои сонди ще се провалят, докато други преуспяват, създавайки шаблон, който е характеристичен за DNS пропагационни проблеми и отличен от сървърни нива проблеми.

Шест сонди и какво всеки неуспешен модел разкрива

Мощта на шест едновременни сонди не се крие само в обнаружаване на неуспехи, но в диагностициране на тях. Различни неуспешни модели съответстват на различни категории проблеми, и опитен оператор често може да идентифицира основната причина от мониториране модела един сам, преди дори да отвори прозорец терминал. Когато всичките шест сонди се провалят едновременно с грешки при таймаут на свързване, началния сървър или неговата мрежа вероятно е недостижима, което предполага срив на сървър, отказ на хостинг доставчик или мрежов проблем на ниво център данни. Когато всичките шест сонди се провалят с отговори на HTTP грешка като 502 или 503, сървърът е достижим, но приложението е счупено, което предполага грешка при развертане, отказ на база данни или срив на приложение ниво.

Когато една или две сонди се провалят, докато останалите успяват, модела казва регионална история. Ако неуспешните сонди са и двете в Азия, докато европейските и североамерикански сонди успяват, проблемът е почти сигурно в мрежовия път между Азия и началния сървър, дали на CDN краищен възел, преходен доставчик или регионален DNS разрешител. Ако неуспешната сонда е в един регион като началния сървър, докато далечни сонди успяват, проблемът може да бъде на хостинг доставчика местна мрежа ниво, с далечни сонди обслужени от CDN кеш, който маскира началния отказ. Всеки модел стеснява диагностичното поле и ускорява времето до разрешаване.

Вариации на време за отговор по сонди осигурават по-фин, но еквалентно ценен сигнал. Ако всичките шест сонди показват успешни отговори, но времето за отговор на един регион се е удвоило в сравнение с неговия исторически базов период, този регион преживява деградиране, което все още не се е прогресирало към пълен отказ. Хващане деградиране преди да стане отказ е един от най-ценните способности на мулти регионално мониториране, защото дава оператора прозорец време за разследване и намеса, преди потребители в този регион да започнат подаване билети за поддръжка. Табло мониториране показва времена за отговор за всичките шест локации на един времеви ред, правейки регионални деградиране модели видими на един поглед.

Географска маршрутизация и проблемите, която тя скрива

Модерната интернет инфраструктура използва географска маршрутизация обширно, насочвайки потребители към най-близо налични сървър или CDN краищен възел, базирани на техния местоположение. Тази маршрутизация е обикновено полезна, защото намалява забавяне и подобрява представяне за мнозинството потребители. Но това също означава, че пътят, който заявка приема от точка А към точка Б, варира драматично, в зависимост от къде е точка А. Мониториране сонда в Ню Йорк и мониториране сонда в Токио ще приемат напълно различни мрежови пътища, за да стигне същия уебсайт, преминавайки през различни ISP, различни пиринг борси и различни CDN краищни възли. Препятствие някъде по един път може да бъде невидимо от другия.

Anycast маршрутизация, използвана от повечето основни CDN и DNS доставчици, добавя друг слой на сложност. С anycast, един и същи IP адрес се обявява от множество географски локации, и интернет маршрутизиране инфраструктура насочва всяка заявка към най-близко обявяващо местоположение. Това означава, че DNS разрешаване или CDN заявка от Европа стига европейски сървър, докато едно и също заявка от Азия стига азиатски сървър, дори и двата случая IP адреса е еднакъв. Ако азиатския anycast възел има проблем, азиатски сонди го открият, докато европейски сонди не могат, защото техни заявки никога дори не стигат един и същи физически сървър.

BGP маршрутизиране промени могат да причинят временни или продължителни достъпност проблеми за специфични региони. Когато пътека на граничен шлюз протокол се оттегли или алтерира, трафик, който преди това текше през преки пътека, може да бъде преустановен през по-дълги, потенциално претоварени пътеки, увеличавайки забавяне и някога причинявайки загуба на пакети. Тези BGP събития са честни, случайно хиляди пъти на ден глобално, и техния влияние е неотложно регионален. Мулти регионално мониториране система преживява тези събития из първи ръка чрез неговите разпръснати сонди, откривайки влияние на всеки регион независимо, вместо да полага се на един гледна точка, която може или не може да бъде засегнат.

От обнаружение към действие и знаене какво да поправим

Обнаружение без жизнеспособна информация е просто аларма, която прави шум без насочване към решение. Стойността на мулти регионално мониториране се простира отвъд казването ви, че нещо е грешно. Казва ви къде е грешно и, чрез неуспешния модел, предполага какъв род грешно е. Този диагностични контекст трансформира инцидент отговор процес от паничен търсене чрез логове и табла до целево разследване, което започва със силна хипотеза за основната причина.

Когато мониториране известие показват един регион е отказал, докато останалите остават здрави, оператора може веднага да фокусира неговото разследване на този регион мрежов път. CDN краищен възел в този регион докладва проблеми? Има ли активно BGP инцидент засегащ преходни доставчици в този район? DNS разрешител за този регион е кешира стар или неправилен запис? Всеки от тези въпроси могат да бъдат отговорени бързо, и отговорите водят към специфични коригиращи действия: пречистванием CDN кеш за този регион, свързване със преходния доставчик или принудно DNS обновяване. Без географския контекст осигурен от мулти регионално мониториране, оператора щеше да разследва сляп, проверяващ всяка възможна неуспешна точка, вместо тези най-вероятно да бъдат отговорни.

Платформа мониториране време на работа съчетава мулти регионално проверка резултати с исторически данни, които добавят временен контекст към пространствена контекст. Ако един и същ регион преживял неуспехи в един и същи час на ден от преди случаи, което предполага повтаряща се проблема като планирано техническо обслужване прозорец на преходния доставчик или предсказуема трафик модел, която причинява капацитет проблеми по време на пиков часове. Ако неуспеха е първо появление с никакъв исторически прецедент, то е по-вероятно остър инцидент, който изисква незабавно внимание. Съчетанието на географската и временния контекст дава оператора най-пълната картина на това, което се случва, къде то се случва, и дали то се е случило преди.

Често задавани въпроси

Кои са шест локаций за мониториране

Платформа мониториране използва сонд локаций разпръснати на Північна Америка, Европа и Азия, за да осигури глобално покритие. Специфичните локаций са избрани, за да представляват основните интернет маршрутизиране хъбове, където мнозинството от глобалния уеб трафик тече.

Какво се случва, когато само един локация открие неуспех

Един локация неуспех спусва известие, указвайки регионален проблем, вместо глобален прекъсване. Известието включва специфичното местоположение, който е отказал и отговор детайли, помагайки оператора определяне дали проблемът е на CDN краищен възел, преходния доставчик или DNS разрешител обслужващ този регион.

Може ли мулти регионално мониториране открие забавено представяне преди пълен отказ

Да. Време за отговор мониториране по всичките шест локаций разкрива деградиране в специфични региони дори когато сайта остава технически достъпен. Време за отговор, което удвои от базов период в един регион, докато остава стабилно в други, е ранна предупредителния сигнал, който позволява оператора разследване преди потребителите преживеят пълен отказ.

Колко често проверки работят от всяка локация

Честота на проверка е конфигурируемо, в зависимост от мониториране план. Всяка проверка интервал спусква едновременни сонди от всичките шест локаций, осигуряващ всяка проверка осигурява пълна географска снимка, вместо един точка наблюдение.

Дължави ли мулти регионално мониториране работа със сайтове зад Cloudflare или другите CDN

Да, и CDN предна сайтове са наистина където мулти регионално мониториране осигурява най-вече стойност. CDN краищен възел проблеми са наследствено регионални, и само мулти регионално мониториране може открие когато специфичен CDN краищен възел е деградиран, докато останалите остават здрави.

Това полезни за сайтове с трафик само един регион

Дори сайтове с географски концентриран трафик имат полза от мулти регионално мониториране, защото мрежов път проблеми могат да засегнат всяка маршрута. Допълнително, търсач мотори пълзачи достъпи сайтове от множество региони, така че един регионален прекъсване, която блокира Googlebot от пълзене засегла SEO дори ако човешки посетители в основния пазар са незасегнати.