Monitor dostupnosti s okamžitými e-mailovými upozorneniami na prestoj servera a vypršanie SSL

K každému príbehu monitorovania existuje pred a po, a deliacou čiarou je vždy to isté: výpadok, ktorý trval príliš dlho, pretože nikto nesledoval. Pred monitorovaním sa problémy servera objavujú náhodou. Kolegovi sa zdá, že lokalita je pomalá. Zákazník posiela nahnevaný e-mail. Vývojár sa pokúša nasadiť aktualizáciu a zistí, že server bol nedostupný už niekoľko hodín. Vzor je skľučujúco konzistentný v organizáciách každej veľkosti. Po monitorovaní tá istá chyba servera vytvára fundamentálne iný zážitok. Server padne. O tri sekundy neskôr príde e-mail. Niekto sa začína zaoberať preskúmaním do minúty. Oprava sa nasadí skôr, ako si to väčšina používateľov všimne. Rozdiel medzi týmito dvoma scenármi nie je šťastie alebo úroveň personálu. Je to prítomnosť alebo neprítomnosť automatizovaného systému, ktorý neustále sleduje a hovorí v momente, keď niečo zlyje.

Tradičný prístup k monitorovaniu servera bol vytvorený pre operačné tímy s dedikovanými rozpočtami na infraštruktúru. Nástroje ako Nagios, Zabbix a Prometheus sú výkonné, ale vyžadujú značné odborné znalosti na konfiguráciu a údržbu. Bežia na vlastných serveroch, čo vytvára filozofický problém: kto monitoruje monitor? Pre jednotlivých vývojárov, malé agentúry a zavádzajúce startups je režijnosť prevádzky vlastne hostovaného zásobníka monitorovania často väčšia ako režijnosť občasného nedetegovaného výpadku, čo znamená, že monitorovanie sa perpetuálne odkladá na "neskôr" a neskôr nikdy nepríde. Cloudový model monitorovania túto režijnosť úplne eliminuje. Žiadne servery na údržbu. Žiadne konfiguračné súbory na správu. Žiadna infraštruktúra monitorovania na opatrovanie. Pridajte koncový bod, konfiguráciou preferencie upozornení a systém sa prevezme odtiaľto.

To, čo uptime.yeb.to robí, je jednoduché v koncepcii a starostlivé vo vykonávaní. Každý monitorovaný koncový bod sa kontroluje v pravidelných intervaloch v štyroch odlišných dimenziách: základná dostupnosť siete cez ping, dokončenie plného HTTPS požiadavku, platnosť certifikátu SSL a časový plán vypršania platnosti a meranie času odozvy. Každá dimenzia chytá inú kategóriu zlyhania a spolu poskytnú komplexný obraz toho, či služba nie je len online, ale je aj skutočne zdravá a funguje dobre. Server, ktorý reaguje na ping, ale zlyháva pri kontrolách HTTPS, má problém s webovým serverom. Server, ktorý prejde všetky kontroly, ale vykazuje postupne rastúci čas odozvy, smeruje k pádu. Server s platným certifikátom SSL, ktorý vypršia za tri dni, sa chystá spustiť upozornenia prehliadača, ktoré odpudzia návštevníkov. Každý z týchto scenárov vyžaduje inú odpoveď a bez aktívneho monitorovania je každý neviditeľný.

To, čo monitor skutočne kontroluje a prečo je každá vrstva dôležitá

Monitorovanie ping je najzákladnejšia vrstva a tiež najčastejšie nepochopená. Úspešná odpoveď ping znamená, že operačný systém na serveri beží a sieťová cesta medzi sondou monitorovania a serverom je jasná. Neznamená to, že bežiť webový server. Neznamená to, že aplikácia funguje. Neznamená to, že používatelia môžu naozaj načítať stránku. Ping je základ, minimálna životaschopnosť, a všetko ostatné na ňom staví. Keď sa kontrola ping nezdá, je problém vážny: buď je server úplne offline, alebo existuje základný problém so sieťou, ktorý zabraňuje akémukoľvek prenosu do stroja. Toto sú výpadky, ktoré ovplyvňujú všetko, nie len webový prevádzku, ale aj prístup SSH, pripojenia databázy, doručovanie e-mailov a všetky ostatné služby bežiace na tomto serveri.

Monitorovanie HTTPS dodáva kritickú vrstvu, ktorú ping zmeškáva. Kontrola HTTPS vykonáva úplný webový požiadavok, rovnakého druhu, aký prehliadač robí, keď návštevník navštívi webovú lokalitu. Kontrola overuje, že webový server prijíma pripojenia, že ste si úspešne dokončili handshake SSL, že server vracia platnú odpoveď HTTP a že celý proces sa dokončí v rozumnom časovom rámci. Toto chytá širokú kategóriu problémov, ktoré ping nemôže zistiť: zrútené procesy webového servera, nesprávne nakonfigurované certifikáty SSL, chyby aplikácií, ktoré vracajú stavové kódy HTTP 500, a degradácia výkonu, ktorá robí lokalitu prakticky nepoužívateľnou, aj keď je technicky „online". Rozlíšenie medzi serverom, ktorý je dostupný, a webovou lokalitou, ktorá je použiteľná, je presne medzera, ktorú vyplňa monitorovanie HTTPS.

Monitorovanie certifikátu SSL rieši problém, ktorý aspoň raz kážde operátorovi webovej lokality uvedie do ťažkostí. Certifikáty vypršavajú. Bezplatné certifikáty od Let's Encrypt vydržia 90 dní. Platené certifikáty zvyčajne vydržia jeden rok. V oboch prípadoch je dátum vypršania platnosti príchodný s absolútnou istotou a napriek tomu obnovy certifikátov stále chýbajú s pozoruhodnou frekvenciou. Dôvod je jednoduchý: neexistuje žiadny zabudovaný systém pripomínania. Certifikačné úrady neposielajú vždy oznámenia o obnovení. Automatizované skripty na obnovu niekedy zlyhajú potichu. A následky vypršaného certifikátu sú okamžité a tvrdé. Prehliadače zobrazujú upozornenia na bezpečnosť na celej stránke. Vyhľadávače označujú lokalitu. Používatelia, ktorí vidia tieto upozornenia, zriedka pokračujú a často sa vrátia ani po obnovení certifikátu. Monitorovanie dátumu vypršania platnosti certifikátu a upozornenie oveľa pred termínom eliminuje túto celú kategóriu prevencií incidentov.

Monitorovanie času odozvy je systém včasného varovania pre problémy, ktoré ešte nie sú výpadkami, ale smerujú k tejto strane. Zdravý webový server reaguje za 100 až 300 milisekúnd. Keď sa časy odozvy začínajú zvyšovať na 500, potom 800, potom 1500 milisekúnd, niečo nie je v poriadku. Databázové dopytovanie môže prebiehať pomaly z dôvodu rastúcich veľkostí tabuľky. Pamäť môže byť spotrebovaná procesným únikmi. Disk I/O môže byť nasýtený protokoláciu alebo operáciu zálohovania. Tieto problémy nespúšťajú chyby ping alebo HTTPS, ale degradujú používateľský zážitok spôsobmi, ktoré priamo ovplyvňujú miery odskokov, miery konverzií a poradie vyhľadávacích motorov. Sledovaním časov odozvy počas dní a týždňov sa trendy stanú viditeľnými oveľa skôr, ako sa eskalujú na úplné výpadky.

Systém upozornení a prečo tri sekundy zmeňujú všetko

Rýchlosť detekcie je jediná najdôležitejšia premenná pri minimalizácii vplyvu prestoja. Matematika je jednoduchá: celkové poškodenie sa rovná vplyvu za minútu vynásobenej počtom minút. Zníženie času detekcie z piatich hodín na tri sekundy nezmení vplyv za minútu, ale dramaticky zníži počet minút. Server, ktorý padne a opraví sa do desiatich minút, zažíva približne 0,002% prestoj v deň. Rovnakému serveru, ktorý padne a objaví sa päť hodín neskôr, prežíva 0,35% prestoj, aj keď oprava trvá rovnaký čas desiatich minút. Počas mesiacov sa tieto čísla znásobujú na rozdiel medzi "štyrmi deviatkami" spoľahlivosti a používateľom žiadaným vysokým percentom dostupnosti, ktorý nikto nechce vidieť na stránke stavu.

Mechanizmus doručovania upozornení je rovnako dôležitý ako rýchlosť detekcie. Upozornenie, ktoré príde na palubnej doske, ktorú nikto nesleduje, je rovnocenné bez upozornenia. E-mail zostáva najviac spoľahlivým kanálom oznámení pre väčšinu operátorov, pretože e-mail je vždy zapnutý, vždy dostupný z akéhokoľvek zariadenia a nevyžaduje inštaláciu ďalšej aplikácie alebo kontrolu ďalšieho rozhrania. Keď uptime.yeb.to zistí zlyhanie, e-mailové oznámenie je odoslané okamžite so všetkými relevantnými kontextom: ktorý koncový bod zlyhal, aký typ kontroly detegoval problém, presný časový plán a odpoveď, ktorá bola prijatá (alebo chyba, ktorá sa vyskytla). To znamená, že príjemca môže začať diagnózovať problém z e-mailu samotného, bez potreby prihlásiť sa na palubnej doške monitorovania najskôr.

Oznámenia o obnovení sú rovnako dôležité a často sa prehliadajú. Vedenie, kedy sa server vracia online, je rovnako cenné ako vedenie, kedy padne. Upozornenia na obnovenie zahŕňajú celkovú dobu výpadku, ktorá sa priamo vzťahuje na analýzu po incidentoch a podávanie správ. Tiež zabráňujú zbytočnej eskalácii, ktorá sa stane, keď je prijatá výstraha, ale po vyriešení problému sa neposiela žiadne nasledujúce opatrenie. Bez oznámení o obnovení každá výstraha vytvára otvorenú slučku, ktorá vyžaduje ručnú overovanie, ktoré spotrebúva čas a pozornosť, ktoré by mohli byť vynaložené na produktívnejšiu prácu.

Denné zhrnutia, týždenné správy a dlhý pohľad

Upozornenia v reálnom čase riešia naliehavé problémy. Zhrnutia zvládajú všetko ostatné. E-mail s denným zhrnutím príde každé ráno s úplným zhrnutím predchádzajúcich 24 hodín: percentá dostupnosti pre každý monitorovaný koncový bod, priemerné a špičkové časy odozvy, všetky incidenty, ktoré sa vyskytli a ich trvanie, a stav vypršania platnosti certifikátu pre všetky koncové body HTTPS. Tento e-mail trvá asi 30 sekúnd na preskúmanie a poskytuje okamžitú odpoveď na otázku "je všetko zdravé?" bez potreby prihlásenia na akúkoľvek palubní dosku alebo ručnej kontroly akéhokoľvek druhu.

Týždenné zhrnutia sa vzďaľujú ďalej a odhaľujú trendy, ktoré sú neviditeľné na dennej úrovni. Server, ktorý si udržal 100% dostupnosť každý deň týždňa, ale vykazoval časy odozvy rastúce o 50 milisekúnd každý deň, má sa vyvíjajúci problém, ktorý denné zhrnutie nemusí sprísniteľný, ale týždenný grafický graf trendov robí nepochybný. Podobne server, ktorý zažil dva krátke výpadky na rôznych dňoch týždňa, môže odhaliť vzor pri pohľade spolu: oba výpadky sa vyskytli o 3. ráno počas okna automatizovanej zálohy, čo naznačuje, že proces zálohy spotrebúva príliš veľa zdrojov a potrebuje byť optimalizovaný alebo presunutý. Tieto vzory sa objavujú len vtedy, keď sa údaje agregujú v čase a týždenné zhrnutie je navrhnuté presne na tieto poznatky.

História incidentov poskytuje podrobný forenzný záznam, ktorý zhrnutia zhŕňajú. Každý zistený výpadok je zaznamenávaný s jeho časom začatia, časom konca, trvaním, ovplyvnenými kontrolami a údajmi odozvy, ktoré naznačujú zlyhanie. Táto história slúži viacerým účelom. Poskytuje údaje potrebné pre recenzie po incidentoch a analýzu základných príčin. Vytvára zodpovednosť pri riešení poskytovateľov hostingu o dodržiavaní SLA. Generuje štatistiky dostupnosti potrebné na stránky stavu a správy klientov. A vytvára dlhodobý záznam, ktorý môže informovať rozhodnutia o infraštruktúre, ako napríklad či konkrétny poskytovateľ hostingu plní svoje sľuby spoľahlivosti alebo či je migrácia splatná.

Viacregionálne sondy a slepé škvrny monitorovania jedného miesta

Server môže byť dokonale dostupný z Frankfurtu a úplne nedostupný z Tokia v rovnakom čase. Sieťové smerovanie nie je jednotné na celom svete. Poskytovatelia internetových služieb robia rozhodnutia o smerovaní, ktoré môžu vytvoriť regionálne problémy s konektivitou ovplyvňujúce konkrétne geografické koridory, zatiaľ čo ostatní zostávajú úplne bez vplyvu. Oneskorenia šírenia DNS môžu znamenať, že migrácia servera je kompletná a overená z jedného kontinentu, zatiaľ čo používatelia na inom kontinente sú stále nasmerovávajú na starý, možno offline, server. Chyby konfigurácie CDN môžu podávať zastarané alebo chybné obsahu konkrétnym regiónom, zatiaľ čo ostatné regióny dostávajú správne aktualizované stránky.

Monitorovanie jedného umiestnenia je slepé na všetky tieto scenáre. Ak je sonda monitorovania v rovnakom regióne dátového centra ako server, správy 100% dostupnosti, zatiaľ čo polovica celosvetovej používateľskej základne nemôže pristupovať k lokalite. Viacregionálne monitorovanie zo šiestich geograficky rozmiestnenych miest chytá tieto rozdiely podľa návrhu. Keď sa kontrola nezdá z jedného regiónu, ale prejde iné, upozornenie obsahuje geografický kontext, ktorý okamžite zúži problém na regionálny problém so smerovaním, ako na zlyhaní na strane servera. Toto rozlíšenie má obrovskú dôležitosť pre diagnózu a odpoveď: problém na strane servera vyžaduje reštart služieb alebo kontakt na poskytovateľa hostingu, zatiaľ čo regionálny problém so smerovaním vyžaduje vyšetrovanie DNS, konfigurácii CDN alebo problémov na úrovni ISP.

Šesť monitorovacích miest je vybratých na pokrytie hlavných populácií a centr dopravy celosvetovo. To znamená, že webová lokalita slúžiaca zákazníkom v celej Severnej Amerike, Európe a Ázii má sondy na alebo blízko každého z týchto regiónov, čo poskytuje skutočné pokrytie namiesto iluzie monitorovania, ktorú vytvára jediná sonda. Pre podnikania, ktoré závisia od celosvetovej dostupnosti, tento prístup viacregionálneho nie je voliteľné vylepšenie. Je to minimálna životaschopná konfigurácia monitorovania, ktorá môže presne reprezentovať skúsenosť geograficky rozmiestnenej používateľskej základne. Budovanie uptime.yeb.to s kapacitou viacregionálneho od začiatku zabezpečuje, že monitorovanie je rovnako komplexné ako premávka, ktorú chráni.

Často kladené otázky

Ako rýchlo monitor dostupnosti posiela upozornenie po zistení prestoja

E-mail s upozornením sa posiela v sekundách po zistení potvrdeného zlyhania. Presný čas závisí od intervalu kontroly nakonfigurovaného pre koncový bod, ale akonáhle sa zistí a potvrdia zlyhaná kontrola, upozornenie sa pošle okamžite. To znamená, že celkový čas detekcie k notifikácii sa meria v sekundách, čo umožňuje operátorom začať skúmať predtým, ako si väčšina používateľov výpadok všimne.

Aké typy monitorovania nástroj vykonáva

Pre každý monitorovaný koncový bod sa kontrolujú štyri typy. Monitorovanie ping overuje základnú dostupnosť siete. Monitorovanie HTTPS vykonáva úplný webový požiadavok na potvrdenie, že lokalita správne obsluhuje stránky. Monitorovanie certifikátu SSL kontroluje platnosť a dátumy vypršania platnosti. Monitorovanie času odozvy sleduje, ako dlho trvá, kým sa požiadavky dokončia a signalizuje degradáciu, predtým ako sa stane úplným výpadkom. Spolu tieto štyri kontroly pokrývajú celé spektrum bežných zlyhaní servera a webovej lokality.

Existuje bezplatný monitor dostupnosti, ktorý skutočne funguje

Mnohé bezplatné monitorovacie nástroje existujú, ale obvykle im v kontrolej frekvencii, počte monitorovaných koncových bodov alebo metódach doručovania upozornení kladú prísne obmedzenia. uptime.yeb.to je navrhnutý na poskytnutie zmysluplného monitorovania bez potreby podnikového rozpočtu, s plánmi, ktoré sa menej na základe počtu koncových bodov, ktoré potrebujú pokrytie, namiesto uzamykania základných funkcií za prémiovými vrstvami.

Čo je zahrnuté v dennom e-maile s zhrnutím

Denné zhrnutie zhŕňa predchádzajúcich 24 hodín vo všetkých monitorovaných koncových bodoch. Zahŕňa percentá dostupnosti, priemerné a špičkové časy odozvy, všetky incidenty, ktoré sa vyskytli s ich trvaním, a upozornenia na vypršanie platnosti certifikátu SSL. E-mail je navrhnutý na rýchle preskúmanie za menej ako minútu a poskytuje okamžitú odpoveď na to, či je potrebné si v ten deň poradiť s problémami infraštruktúry.

Môže monitor kontrolovať webové lokality z viacerých miest po celom svete

Áno. Viacregionálne monitorovanie posiela kontroly zo šiestich geograficky rozmiestnenych miest a pokrýva hlavné centrá dopravy celosvetovo. Toto chytá problémy s regionálnou konektivitou, oneskorenia šírenia DNS a chyby konfigurácie CDN, ktoré by monitorovanie jedného umiestnenia úplne zmeškal. Keď sa deteguje zlyhanie z jedného regiónu, ale nie z iných, upozornenie obsahuje geografický kontext, ktorý pomáha diagnosticovať, či je problém na strane servera alebo na strane siete.

Sleduje monitor dátumy vypršania platnosti certifikátu SSL

Monitorovanie certifikátu SSL je zabudovanou funkciou, ktorá sa spúšťa s každým cyklom kontroly. Overuje, že certifikát je aktuálne platný a vypočítava počet dní do vypršania platnosti. Upozornenia sa posielajú oveľa skôr ako dátum vypršania platnosti a dajú dostatok času na obnovenie bez rizika upozornení bezpečnosti prehliadača alebo sankcií vyhľadávača. Toto zabraňuje prekvapujúcemu scenáru, keď sa automatizované obnovenie nezdá potichu a certifikát vypršá bez toho, aby si to niekto všimol, kým návštevníci nevidia varovacie stránky.

Emailová upozornenie tri sekundy po páde lokality a nikdy viac päť hodín prestojov