Notificarea nu a venit de la niciun serviciu de monitorizare. Nu a venit de la o alertă automată sau de la un webhook care s-a activat în Slack. A venit de la cel mai primitiv sistem de monitorizare imaginabil: deschiderea unui browser, introducerea URL-ului și privirea la o pagină albă. Era o zi de marți, după-amiază. Site-ul a fost inactiv din undeva din jurul orei nouă dimineața, și era acum mult după ora doi după-amiază. Cinci ore de tăcere totală de la o aplicație web care în mod normal servea mii de cereri pe zi.
Descoperirea s-a întâmplat din cauza unei sarcini complet lipsite de legătură. A existat o nevoie de a verifica un anumit aspect al aspectului paginii pentru o schimbare de design, așa că browserul a mers la URL și a returnat nimic.
Fiecare dezvoltator care a rulat servicii de producție pe un VPS are o versiune a acestei povești. Problema rădăcină este absența monitorizării, și mai specific, diferența dintre a ști că serverul este online și a ști că aplicația funcționează de fapt.