Każda historia monitorowania ma swój moment przełomu, a linia podziału jest zawsze taka sama: awaria, która trwała zbyt długo, bo nikt jej nie obserwował. Zanim pojawi się monitoring, problemy serwera odkrywa się przez przypadek. Kolega wspomina, że witryna wydaje się powolna. Klient wysyła gniewny e-mail. Deweloper próbuje wdrożyć aktualizację i odkrywa, że serwer jest niedostępny od godzin. Wzór powtarza się depresyjnie konsekwentnie w organizacjach każdej wielkości. Po wdrożeniu monitoringu ten sam problem na serwerze daje fundamentalnie inne doświadczenie. Serwer pada. Trzy sekundy później przychodzi e-mail. Ktoś bada problem w ciągu minuty. Naprawa zostaje wdrożona, zanim większość użytkowników w ogóle coś zauważy. Różnica między tymi dwoma scenariuszami to nie szczęście czy poziom zatrudnienia. To obecność lub brak zautomatyzowanego systemu, który ciągle obserwuje i mówi, gdy coś pójdzie nie tak.

Tradycyjne podejście do monitorowania serwerów zostało zbudowane dla zespołów operacyjnych z dedykowanymi budżetami infrastruktury. Narzędzia takie jak Nagios, Zabbix i Prometheus są potężne, ale wymagają znacznej wiedzy do skonfigurowania i utrzymania. Działają na własnych serwerach, co stwarza problem filozoficzny: kto monitoruje monitor? Dla indywidualnych programistów, małych agencji i uruchomionych startupów, narzut prowadzenia samoobsługowego stosu monitorowania często przekracza narzut okazjonalnej nieodkrytej awarii, co oznacza, że monitoring jest ciągle odraczany na "później" i później nigdy się nie zdarza. Model monitorowania opartego na chmurze całkowicie eliminuje ten narzut. Brak serwerów do utrzymania. Brak plików konfiguracyjnych do zarządzania. Brak infrastruktury monitorowania do nadzoru. Dodaj punkt końcowy, skonfiguruj preferencje alertów, a system przejmie kontrolę.

To, co robi uptime.yeb.to, jest proste w koncepcji i skrupulatne w wykonaniu. Każdy monitorowany punkt końcowy jest sprawdzany w regularnych odstępach czasu w czterech różnych wymiarach: podstawowa osiągalność sieci za pośrednictwem ping, pełne wykonanie żądania HTTPS, ważność i harmonogram wygaśnięcia certyfikatu SSL oraz pomiar czasu odpowiedzi. Każdy wymiar przechwytuje inną kategorię awarii, a razem zapewniają kompleksowy obraz tego, czy usługa nie tylko działa, ale faktycznie jest zdrowa i działa dobrze. Serwer reagujący na ping, ale nie przechodzący kontroli HTTPS, ma problem z serwerem internetowym. Serwer przechodzący wszystkie kontrole, ale pokazujący stale rosnące czasy odpowiedzi, zmierza do awarii. Serwer z ważnym certyfikatem SSL wygasającym za trzy dni wkrótce wywoła ostrzeżenia przeglądarki, które odpędzą odwiedzających. Każdy z tych scenariuszy wymaga innego podejścia, a każdy jest niewidoczny bez aktywnego monitorowania.