Hvordan et Fem Timer Langt Strømbrekk Førte til Bygging av Automatisk Skjermbildeovervåking og Oppetidsvarsler

Varslingen kom ikke fra en overvåkingstjeneste. Det kom ikke fra en automatisert alarm eller en webhook som feuet inn i Slack. Det kom fra det mest primitive overvåkingssystemet man kan tenke seg: åpne en nettleser, skrive inn URL-en, og stirre på en blank side. Det var en tirsdag ettermiddag. Siden hadde vært nede siden et sted rundt ni om morgenen, og det var nå langt over klokken to ettermiddag. Fem timer med totalt stillhet fra en webapplikasjon som normalt håndterte tusenvis av forespørsler per dag. Fem timer hvor hver besøkende så en feilside, hver API-anrop returnerte ingenting, og hver planlagt oppgave mislyktes stille i bakgrunnen. Serveren hadde ikke krasjet dramatisk. Det var ingen kernelpanikk, ingen diskfeil, ingen angrepsvektor som etterlot rettsmedisinsk bevis. Contabo VPS-en hadde ganske enkelt sluttet å svare på HTTP-forespørsler, sittende der med en gyldig IP-adresse og en puls på nettverkslaget, men nektet å betjene all webtrafikk.

Oppdagelsen skjedde på grunn av en helt uavhengig oppgave. Det var behov for å sjekke et spesifikt sidetopografi for en designendring, så nettleseren gikk til URL-en og returnerte ingenting. Den første instinkten var å skylde det lokale nettverket. Oppdaterte siden. Fortsatt ingenting. Prøvde en annen nettleser. Fortsatt ingenting. Åpnet terminalen og pinget serveren. Pakkene returnerte normalt. SSH-tilkobling? Fungerer fint. Apache-status? Død. Webserverprosessen hadde krasjet et sted i løpet av de tidlige morgentimene og startet aldri på nytt, fordi det var ingen prosessovervåker konfigurert for å håndtere den spesifikke feiltilstanden. Fiksen tok tretti sekunder. Realiseringen av at dette kunne skje igjen, og sannsynligvis hadde skjedd før uten at noen la merke til det, tok betydelig lenger tid å fordøye.

Hver utvikler som har kjørt produksjonstjenester på en VPS har en versjon av denne historien. Kanskje det ikke var fem timer. Kanskje det var to, eller åtte, eller et helt helgeløp. Spesifikken varierer men mønsteret er identisk. Serveren gikk ned, ingen la merke til det, og oppdagelsen var tilfeldig. Rotproblemet er ikke serverreliabilitet. Servere feiler, prosesser krasjer, disker fyller seg, minnelekkasjer akkumuleres. Det er naturen ved kjøring av programvare på fysisk maskinvare. Rotproblemet er fraværet av overvåking, og mer spesifikt, gapet mellom å vite at serveren er online og å vite at applikasjonen faktisk fungerer.

Serveren Min Gikk Ned og Jeg Fant Det ut Fem Timer Senere ved en Ulykke

Også tilgjengelig på: