Falsk GoogleBot og Zoologien av Internett-bots

Internett har et dyreliv-problem. Under overflaten av menneskelig nettleseraktivitet eksisterer et helt økosystem av automatiserte programmer som crawler, skraper, prober og ber om nettsider i enormt omfang. Noen av disse botene er fordelaktige. Googles crawler indekserer sider slik at de vises i søkeresultater. Bings crawler gjør det samme for Microsofts søkemotor. OpenAIs crawler samler treningsdata for språkmodeller. Disse legitime crawlerne identifiserer seg ærlig, følger reglene spesifisert i robots.txt-filer, og opererer fra kjent infrastruktur. Men for hver legitim crawler, finnes det dusinvis av etterligninger som bærer samme namneskilt mens de gjør noe helt annet. De presenterer seg som Googlebot i brukeragent-strengen, påstår å indeksere sider for søk, og stoler på at de fleste webservere vil gi dem fortrinnsbehandling basert på denne påstanden. Zoologien av disse internett-botene er like kompleks, konkurranseutsatt og av og til bisarr som ethvert biologisk økosystem.

Å forstå dette økosystemet er viktig for alle som driver et nettsted, fordi avgjørelsen om å stole på eller blokkere en bot har direkte konsekvenser. Å blokkere en reell søkemotor-crawler betyr at sider slutter å vises i søkeresultater. Å stole på en falsk betyr å tillate en skraper, et konkurranseintelligensprogram eller en ondsinnet aktør å forbruke serverressurser mens han utgir seg for å gi verdi. Evnen til å skille mellom reelle og falske crawlere er ikke en teoretisk sikkerhetsvurdering. Det er en praktisk nødvendighet som påvirker båndbreddekostnader, serverytelse, analysenøyaktighet og innholdsvern. Bot-deteksjons-API'en eksisterer nettopp for dette formålet, og gir definitivt verifisering av crawler-identitet basert på det ene som ikke kan forfalskes: nettverksinfrastrukturen som boten kobler fra.

Artene av Falsk Googlebot

Googlebot er den mest etterlignet crawleren på internett, og årsakene er åpenbare. Nettsteder gir rutinmessig Googlebot spesielle privilegier. Hastighetsgrenser er avslappet. Betalingsmurer løftes. Innhold som er skjult bak JavaScript-gjengivelse blir forhåndsgjengitt spesielt for Googles crawler. Robots.txt-regler tillater ofte eksplisitt Googlebot-tilgang til avsnitt som er begrenset for andre crawlere. Ved å påstå å være Googlebot, arver en falsk crawler alle disse privilegiene uten å tjene noen av dem. Nettstedet serverer sitt beste innhold, raskeste svar og mest komplette sider til det den tror er Googles indekseringsinfrastruktur, når virkeligheten er at mottakeren er en skraper som opererer fra en leid server i et datasenter.

Ekte Googlebot kan identifiseres med absolutt sikkerhet. Det opererer utelukkende fra IP-adresser innenfor Googles autonome system, AS15169. En omvendt DNS-oppslag på en hvilken som helst reell Googlebot IP-adresse returnerer et vertsnavn som slutter på googlebot.com eller google.com. En forover DNS-oppslag på det vertsnavn oppløser tilbake til den opprinnelige IP-adressen. Denne trin-verifikasjonsketjoen, IP til vertsnavn til IP, er kryptografisk bundet til Googles DNS-infrastruktur og kan ikke forfalskes uten å kompromittere Googles DNS-servere, som er praktisk talt umulig. Google bot-detektoren utfører denne eksakte verifikasjonsketjoen og returnerer et definitivt resultat.

Falsk Googlebot, derimot, kommer fra generell skyinfrastruktur som hvem som helst kan leie hver time. Amazon Web Services, Google Cloud Platform (ironisk nok), Microsoft Azure, DigitalOcean, Hetzner, OVH og Contabo er vanlige kilder. Brukeragent-strengen er kopiert ordrett fra ekte Googlebot, ofte inkludert versjonsnummeret og crawl-URL-formatet. Noen sofistikerte falske etterligner til og med Googlebots forespørselsmønstre, avstander deres forespørsler og følger lenker på en måte som likner legitim crawling. Men IP-adressen avslører dem hver gang. Ingen mengde atferdsmimikri kan endre det faktum at forespørselen kommer fra AS16509 (Amazon) i stedet for AS15169 (Google).

Bingbot og Dens Etterligninger

Microsofts Bingbot er den andre mest etterlignet crawleren, og dens verifisering følger et lignende mønster som Googlebot, men med noen viktige forskjeller. Ekte Bingbot opererer fra Microsofts infrastruktur, og dens IP-adresser oppløses via omvendt DNS til vertsnavn innenfor search.msn.com-domenet. ASN-verifikasjonen kontrollerer mot Microsofts autonome systemer, som inkluderer flere ASNer på grunn av selskapets omfattende nettverksinfrastruktur. Verifikasjonen er like pålitelig, men krever bevissthet om Microsofts bredere IP-tildeling sammenlignet med Googles mer konsoliderte område.

Falsk Bingbot tjener mange av de samme formålene som falsk Googlebot, men vises i noe lavere volumer, noe som reflekterer Bings mindre markedsandel og den tilsvarende mindre insentiven til å etterlikne det. Imidlertid tiltrekker nettsteder som spesifikt optimaliserer for Bing eller som serverer annet innhold til Bingbot uforholdsmessig stor etterlikning. SEO-verktøy som analyserer hvordan en side vises for Bings crawler bruker ofte falske Bingbot brukeragenter for å hente Bing-spesifikk versjon av sider. Tjenester for konkurranseintelligens gjør det samme for å se hvilket innhold konkurrenter serverer spesifikt til Microsofts søkeinfrastruktur.

Deteksjonsmetodologien er identisk i prinsippet. Kontroller IP-adressen mot Microsofts kjente områder. Utfør omvendt og forover DNS-verifisering. Bekreft at ASN samsvarer. En forespørsel som påstår å være Bingbot som kommer fra en Hetzner-server i Finland er falsk med absolutt sikkerhet, uavhengig av hvor overbevisende brukeragent-strengen er utformet. Bot-deteksjons-API'en håndterer denne verifikasjonen automatisk, og kontrollerer den påståtte identiteten mot den faktiske nettverksopprinnelsen og returnerer en klar dom.

ChatGPT-crawleren og den nye bølgen av AI-bots

Fremveksten av store språkmodeller har skapt en helt ny kategori av nettkrawlere og en helt ny kategori av etterlikning. OpenAIs GPTBot crawler nettet for å samle treningsdata, og dens tilstedeværelse har blitt et av de mest kontroversielle temaene innen nettutgivelse. Mange utgivere ønsker å blokkere GPTBot for å forhindre at innholdet deres brukes til AI-opplæring. Andre ønsker å tillate det, i håp om gunstig behandling i ChatGPTs svar. Uansett er evnen til å skille ekte GPTBot fra falske versjoner kritisk for å håndheve hvilken som helst policy utgiveren har valgt.

Ekte GPTBot opererer, som ekte Googlebot, fra et spesifikt sett av IP-adresser knyttet til OpenAIs infrastruktur. Brukeragent-strengen identifiserer seg selv tydelig, og IP-områdene er publisert og verifiserbare. Falsk GPTBot, som har spredt seg raskt siden lanseringen av ChatGPT, bruker samme brukeragent-streng, men kobler fra urelated infrastruktur. Motivasjonen for å etterlikne GPTBot varierer. Noen skrapere bruker det fordi utgivere som har bestemt seg for å tillate AI-opplæringscrawlere fritt vil servere innhold til alt som påstår å være GPTBot. Andre bruker det som en generisk dekidentitet, og satser på antagelsen om at serveradministratorer er mindre kjent med OpenAIs IP-områder enn med Googles, og derfor mindre sannsynlig å verifisere påstanden. OpenAI-crawler-detektoren adresserer dette direkte, og verifiserer om en påstått GPTBot-forespørsel faktisk kommer fra OpenAIs nettverk.

Utover GPTBot ekspanderer AI-crawler-landskapet raskt. Anthropic, Perplexity, Meta og tallrike mindre AI-selskaper driver alle nettkrawlere med varierende grad av transparens om aktivitetene deres. Hver av disse crawlerne kan etterlignes, og hver etterlikning har sine egne implikasjoner avhengig av hvordan målsiden behandler denne spesielle crawleren. En site som blokkerer alle AI-crawlere bortsett fra GPTBot, for eksempel, skaper et sterkt insentiv for skrapere til å etterlikne GPTBot spesifikt, fordi det er den ene identiteten som vil bli servert innhold uten begrensning.

De mindre aktørene og den lange halen av bot-etterlikning

Bot-økosystemet strekker seg langt utover Google, Bing og OpenAI. Yandex driver en betydelig crawler for det russiskspråklige nettet, og falske Yandex-bots er vanlige på sider med russiskspråklig innhold eller som spesielt serverer annet innhold til Yandex. DuckDuckGos crawler, DuckDuckBot, etterlignes til tross for DuckDuckGos relativt små markedsandel, fordi sider som cater til privatlivsorienterte brukere ofte gir DuckDuckBot fortrinnsbehandling. Qwant, den franske søkemotoren, og Seznam, den tsjekkiske søkemotoren, har begge crawlere som blir etterlignet i deres respektive regionale markeder.

Verifikasjonsmetodologien fungerer identisk for alle. Hver legitim crawler opererer fra et kjent sett av IP-adresser knyttet til operatørens nettverksinfrastruktur. ASN identifiserer nettverket. Omvendt DNS bekrefter vertsnavn. Forover DNS bekrefter IP. Denne verifikasjonsketjoen er universell og gjelder uavhengig av den spesifikke crawleren som blir sjekket. Forskjellen er kun i referansedataene: hvilke ASNer, hvilke vertsnavnmønstre og hvilke IP-områder som tilhører hver crawler. Bot-deteksjons-API'en opprettholder disse referansebestandene for åtte store crawlere og gir verifikasjonen som et enkelt API-kall.

Den lange halen av bot-økosystemet inkluderer også crawlere som ikke etterligninger noen i det hele tatt. Dette er de ærlige botene. SEO-verktøy som Ahrefs, SEMrush og Moz driver crawlere som identifiserer seg nøyaktig i brukeragent-strengene deres. Prissammenligningmetjenester, akademiske forskningscrawlere, tilgjengelighetskontrollanter og lenkevalidatorer kunngjør alle sin sanne identitet. Disse botene kan eller kan ikke være velkomne på et gitt nettsted, men i det minste kan nettstedsoperatøren ta en informert beslutning om å tillate dem. Problemet er spesifikt med etterlignerne, botene som løyer om hvem de er for å få tilgang de ellers ikke ville mottatt.

Bygge et forsvar basert på identitetsverifisering

Det praktiske forsvaret mot bot-etterlikning er greit når verifikasjonsmekanismen er på plass. Hver innkommende forespørsel som påstår å være fra en søkemotor-crawler blir sjekket mot crawlerens kjente infrastruktur. Forespørsler som passerer verifisering blir tillatt gjennom med hvilken som helst privilegier nettstedet gir til den crawleren. Forespørsler som ikke kan verifiseres blir enten blokkert helt eller behandlet som generisk trafikk med forbehold om nettstedets standard hastighetsbegrensning og tilgangskontroll.

Denne tilnærmingen er overlegen til atferdsanalyse av flere grunner. Atferdsanalyse forsøker å bestemme om en besøkende er en bot basert på hvordan den samhandler med nettstedet: forespørselshastighet, navigasjonsmønstre, JavaScript-kjøring, musebevegelser. Disse signalene er støyende, genererer falske positiver, og kan nedkjempes av tilstrekkelig sofistikerte bots som etterligner menneskelig atferd. IP-basert verifisering, derimot, produserer et binært resultat uten falske positiver. En forespørsel kommer enten fra Googles nettverk eller ikke. Det er ingen tvetydighet, ingen terskel å tune, og ingen atferdsmodell å trene.

Implementeringen trenger ikke være synkron med hver forespørsel for sider der latens er en bekymring. Verifisering kan kjøres asynkront, med resultater bufret per IP-adresse. Når en IP er verifisert som tilhørende Googlebot, kan alle påfølgende forespørsler fra den IP-adressen tillates uten re-verifisering i en konfigurerbar periode. Denne tilnærmingen legger til ubetydelig latens til forespørselspipeline mens den gir omfattende beskyttelse mot etterlikning. Bufferingsperioden gjenspeiler en avveining: lengre buffering betyr færre API-kall, men et litt større vindu der en tidligere verifisert IP teoretisk kunne endre eierskap. I praksis er allokeringen av søkemotor-IP ytterst stabil, og buffertvararheter på tjuefiretime timer eller mer er sikre for de fleste programmer.

Resultatet av å implementere identitetsbasert bot-verifisering er en renere, mer ærlig oversikt over hva som faktisk treffer serveren. Reelle crawlere blir velkommen. Falske crawlere blir eksponert og blokkert. Analysedata gjenspeiler virkelighet i stedet for fiksjon. Serverressurser blir tildelt til ekte besøkende og legitime crawlere i stedet for å bli bortkastet på etterligninger. Zoologien av internett-bots er kompleks og stadig utviklende, men det grunnleggende prinsippet om verifisering etter nettverksopprinnelse forblir effektivt uavhengig av hvordan bot-økosystemet endres.

Ofte stilte spørsmål

Hvordan verifiserer jeg om en forespørsel virkelig er fra Googlebot?

Utfør et omvendt DNS-oppslag på IP-adressen og bekreft at vertsnavn slutter på googlebot.com eller google.com. Gjør deretter et forover DNS-oppslag på det vertsnavn og bekreft at det oppløses tilbake til samme IP. Alternativt, kontroller at IP-adressen tilhører AS15169, som er Googles autonome system. Bot-deteksjons-API'en utfører alle disse kontrollene i et enkelt kall.

Kan en bot forfalske sin IP-adresse for å dukke opp som Googlebot?

IP-adresser kan ikke forfalskes for TCP-forbindelser fordi TCP-handtrykket krever toveis kommunikasjon. En bot kan forfalske en brukeragent-streng trivielt, men den kan ikke etablere en TCP-forbindelse med en forfalsket kildeIP. Dette er grunnen til at IP-basert verifisering er definitivt mens brukeragent-basert identifikasjon ikke er det.

Hva er en ASN og hvorfor er det viktig for bot-deteksjon?

En ASN, eller Autonomous System Number, identifiserer et nettverk som driftes av en enkelt organisasjon. Googles nettverk er AS15169, Microsofts bruker flere ASNer, og OpenAI har sine egne utpekte områder. Å kontrollere en bots IP mot den forventede ASN avslører umiddelbart om forespørselen kommer fra den påståtte organisasjonens infrastruktur eller fra et urelated datasenter.

Bør jeg blokkere alle bots som ikke kan verifiseres?

Å blokkere bots som etterligger spesifikke søkemotorer er generelt trygt og anbefalt. Imidlertid er ikke alle uverifiserte bots ondskapsfulle. Noen er legitime verktøy som rett og slett ikke etterligger crawlere. Nøkkelskillet er mellom bots som lyver om identiteten deres, som bør blokkeres, og bots som ærlig identifiserer seg selv, som kan evalueres individuelt.

Hvor vanlig er bot-etterlikning på typiske nettsteder?

Utbredelsen varierer etter nettstedsstørrelse og innholdstype. Sider med høy domenemyndighet, verdifullt innhold eller store sidtall tiltrekker seg mer falske crawlere. Industridata antyder at bot-trafikk utgjør trettifem til femti prosent av all nettrafikk globalt, og en betydelig andel av det er etterligningstrafikk som påstår å være legitime søkemotor-crawlere.

Påvirker blokkering av falske bots ekte søkemotorindeksering?

Nei. Verifikasjonsbasert blokkering påvirker kun forespørsler fra IP-adresser som ikke tilhører den påståtte søkemotoren. Ekte Googlebot, Bingbot og andre legitime crawlere passerer verifisering og fortsetter å få tilgang til nettstedet normalt. Den eneste påvirkningen er på etterlignerne.