Falsk GoogleBot Falsk ChatGPT-crawler Falsk Bing og internettets Bot-zoologi

Internettet har et dyrelivsproblem. Bag menneskets browseraktivitet ligger et helt økosystem af automatiserede programmer, der crawler, scraper, undersøger og anmoder om websider i enorm skala. Nogle af disse bots er fordelagtige. Googles crawler indekserer sider, så de dukker op i søgeresultater. Bings crawler gør det samme for Microsofts søgemaskine. OpenAIs crawler indsamler træningsdata til spromodeller. Disse legitime crawlere identificerer sig selv ærligt, følger de regler, der er angivet i robots.txt-filer, og opererer fra kendt infrastruktur. Men for hver legitim crawler findes der snesevis af bedragere, der bærer det samme navneskilt og gør noget helt anderledes. De præsenterer sig som Googlebot i deres user agent-streng, hævder at indeksere sider til søgning, og forlader sig på det faktum, at de fleste webservere vil give dem fortrinsbehandling baseret på denne påståede identitet. Zoologien af disse internetbots er lige så kompleks, konkurrencepræget og af og til bisarr som ethvert biologisk økosystem.

Det er vigtigt at forstå dette økosystem for alle, der driver et websted, fordi beslutningen om at stole på eller blokere en bot har direkte konsekvenser. At blokere en rigtig søgemaskine-crawler betyder, at sider ikke længere dukker op i søgeresultater. At stole på en falsk betyder at tillade en scraper, et konkurrenceanalyseværktøj eller en ondsindet aktør at forbruge serverressourcer, mens man udgiver sig for at give værdi. Evnen til at skelne mellem rigtige og falske crawlere er ikke en teoretisk sikkerhedsøvelse. Det er en praktisk nødvendighed, der påvirker båndbreddeomkostninger, serverydelse, analytikprecision og indholdsbeskyttelse. Bot-detektions-API'en findes netop til dette formål og giver definitivt bekræftelse af crawler-identitet baseret på det eneste, der ikke kan forfalskes: den netværksinfrastruktur, som botten forbinder fra.

Arterne af Falsk Googlebot

Googlebot er den mest uretmæssigt udgivet crawler på internettet, og grundene er åbenlyse. Websteder yder rutinemæssigt Googlebot særlige privilegier. Hastighedsbegrænsninger slækkes. Betalingsmure hæves. Indhold, der er skjult bag JavaScript-rendering, pre-renderes specifikt til Googles crawler. Robots.txt-regler tillader ofte Googlebot adgang til sektioner, der er begrænset for andre crawlere. Ved at udgive sig for at være Googlebot arver en falsk crawler alle disse privilegier uden at have fortjent dem. Webstedet serverer sit bedste indhold, hurtigste reaktioner og mest komplet sider til det, som det tror er Googles indekseringsinfrastruktur, når modtageren i virkeligheden er en scraper, der opererer fra en lejet server i et datacenter.

Rigtig Googlebot er identificerbar med absolut sikkerhed. Det opererer udelukkende fra IP-adresser inden for Googles autonome system, AS15169. En omvendt DNS-opslag på enhver rigtig Googlebot IP-adresse returnerer et værtsnavn, der ender på googlebot.com eller google.com. Et fremadrettet DNS-opslag på det værtsnavn løser tilbage til den oprindelige IP-adresse. Denne trin-for-trin-verifikationskæde, IP til værtsnavn til IP, er kryptografisk bundet til Googles DNS-infrastruktur og kan ikke forfalskes uden at kompromittere Googles DNS-servere, hvilket er praktisk talt umuligt. Google bot-detektoren udfører netop denne verifikationskæde og returnerer et definitivt resultat.

Falsk Googlebot stammer derimod fra den generelle cloudinfrastruktur, som alle kan leje efter timebasis. Amazon Web Services, Google Cloud Platform (ironisk nok), Microsoft Azure, DigitalOcean, Hetzner, OVH og Contabo er almindelige kilder. User agent-strengen kopieres ordret fra rigtig Googlebot, ofte inkludert versionsnummeret og crawl-URL-formatet. Nogle sofistikerede falske udgaver efterligner endda Googlebots anmodningsmønstre og afstander fra deres anmodninger og følger links på en måde, der ligner legitim crawling. Men IP-adressen afslører dem hver gang. Ingen mængde adfærdsmimik kan ændre det faktum, at anmodningen stammer fra AS16509 (Amazon) i stedet for AS15169 (Google).

Bingbot og dens Bedragere

Microsofts Bingbot er den anden mest uretmæssigt udgivet crawler, og dens verifikation følger et lignende mønster som Googlebot, men med nogle vigtige forskelle. Rigtig Bingbot opererer fra Microsofts infrastruktur, og dens IP-adresser løses via omvendt DNS til værtsnavne inden for search.msn.com-domænet. ASN-verifikationen kontrolleres mod Microsofts autonome systemer, som omfatter flere ASN'er på grund af virksomhedens omfattende netværksinfrastruktur. Verifikationen er lige så pålidelig, men kræver kendskab til Microsofts bredere IP-tildeling sammenlignet med Googles mere konsolideret område.

Falsk Bingbot tjener mange af de samme formål som falsk Googlebot, men optræder i noget lavere mængder, hvilket afspejler Bings mindre markedsandel og det tilsvarende mindre incitament til at udgive sig for at være den. Websteder, der specifikt optimeres til Bing, eller som serverer anderledes indhold til Bingbot, tiltrækker dog uforholdsmæssigt mange uretmæssige udgaver. SEO-værktøjer, der analyserer, hvordan en side ser ud for Bings crawler, bruger ofte falske Bingbot user agents til at hente den Bing-specifikke version af sider. Konkurrenceanalysetjenester gør det samme for at se, hvilket indhold konkurrenter serverer specifikt til Microsofts søgeinfrastruktur.

Detektionsmetodologien er principielt identisk. Kontroller IP-adressen mod Microsofts kendte områder. Udfør den omvendte og fremadrettede DNS-verifikation. Bekræft, at ASN stemmer overens. En anmodning, der påstår at være Bingbot og som stammer fra en Hetzner-server i Finland, er med absolut sikkerhed falsk, uanset hvor overbevisende user agent-strengen er formuleret. Bot-detektions-API'en håndterer denne verifikation automatisk, kontrollerer den påståede identitet mod den faktiske netværkstype og returnerer en klar vurdering.

ChatGPT-crawleren og den nye bølge af AI-bots

Fremkomsten af store spromodeller har skabt en helt ny kategori af webcrawlere og en helt ny kategori af usandfærdighed. OpenAIs GPTBot crawler webbet for at indsamle træningsdata, og dens tilstedeværelse er blevet et af de mest omstridte emner inden for webudgivelse. Mange udgivere ønsker at blokere GPTBot for at forhindre, at deres indhold bruges til AI-træning. Andre ønsker at tillade det, i håb om gunstig behandling i ChatGPTs svar. Uanset hvad er evnen til at skelne rigtig GPTBot fra falske versioner afgørende for at kunne håndhæve, uanset hvilken politik udgiveren har valgt.

Rigtig GPTBot, ligesom rigtig Googlebot, opererer fra et specifikt sæt IP-adresser forbundet med OpenAIs infrastruktur. User agent-strengen identificerer sig selv klart, og IP-områderne er offentliggjort og verificerbare. Falsk GPTBot, som er spredt hurtigt siden lanceringen af ChatGPT, bruger den samme user agent-streng, men forbinder fra uafhængig infrastruktur. Motiverne for at udgive sig for GPTBot er varierede. Nogle scrapere bruger det, fordi udgivere, der har besluttet at tillade AI-trænings-crawlere, vil servere indhold frit til alt, der påstår at være GPTBot. Andre bruger det som en generisk cover-identitet, forventende at serveradministratorer er mindre fortrolig med OpenAIs IP-områder end med Googles og derfor mindre tilbøjelig til at verificere påstanden. OpenAI crawler-detektoren adresserer dette direkte ved at verificere, om en påstået GPTBot-anmodning faktisk stammer fra OpenAIs netværk.

Ud over GPTBot ekspanderer AI-crawler-landskabet hurtigt. Anthropic, Perplexity, Meta og adskillige mindre AI-virksomheder opererer alle web-crawlere med varierende grader af transparens om deres aktiviteter. Hver af disse crawlere kan udgives, og hver uretmæssig udgave har sine egne implikationer afhængigt af hvordan destinationswebstedet behandler den pågældende crawler. Et websted, der blokerer alle AI-crawlere undtagen GPTBot, skaber for eksempel et stærkt incitament for scrapere til at udgive sig for at være GPTBot specifikt, fordi det er den eneste identitet, der vil blive serveret indhold uden begrænsning.

De mindre Spillere og Long Tail af Bot-impersonering

Bot-økosystemet strækker sig langt ud over Google, Bing og OpenAI. Yandex opererer en betydelig crawler til det russisksprogede web, og falske Yandex-bots er almindelige på websteder med russisksprogede indhold eller som specifikt serverer anderledes indhold til Yandex. DuckDuckGos crawler, DuckDuckBot, udgives trods DuckDuckGos relativt små markedsandel, fordi websteder, der henvender sig til privatlivsbevidste brugere, ofte giver DuckDuckBot foretrukken adgang. Qwant, den franske søgemaskine, og Seznam, den tjekkiske søgemaskine, har begge crawlere, der udgives på deres respektive regionale markeder.

Verifikationsmetodologien virker identisk for alle. Hver legitim crawler opererer fra et kendt sæt IP-adresser forbundet med dets operatørs netværksinfrastruktur. ASN'et identificerer netværket. Den omvendte DNS bekræfter værtsnavnet. Den fremadrettede DNS bekræfter IP-adressen. Denne verifikationskæde er universel og gælder uanset hvilken crawler, der bliver kontrolleret. Forskellen er kun i referencedata: hvilke ASN'er, hvilke værtsnavn-mønstre og hvilke IP-områder hører til hver crawler. Bot-detektions-API'en vedligeholder disse referencedatasæt for otte vigtige crawlere og leverer verifikationen som et enkelt API-kald.

Long tail af bot-økosystemet omfatter også crawlere, der ikke udgiver sig for nogen som helst. Dette er de ærlige bots. SEO-værktøjer som Ahrefs, SEMrush og Moz opererer crawlere, der identificerer sig nøjagtigt i deres user agent-strenge. Prissammenligningsservices, akademiske forskeringscrawlere, tilgængelighedskontrollanter og linkvalidatorer annoncerer alle deres sande identitet. Disse bots kan være velkomne eller ikke på nogen given websted, men i det mindste kan webstedsoperatøren træffe en informeret beslutning om, hvorvidt man skal tillade dem. Problemet er specifikt med bedragerne, de bots, der lyver om, hvem de er for at få adgang, de ikke ellers ville modtage.

Byggeri af et Forsvar baseret på Identitetsverifikation

Det praktiske forsvar mod bot-impersonering er ligetil, når verifikationsmekanismen er på plads. Hver indgående anmodning, der påstår at stamme fra en søgemaskine-crawler, kontrolleres mod crawlerens kendte infrastruktur. Anmodninger, der passerer verifikation, tillades gennem med uanset hvilke privilegier webstedet giver til denne crawler. Anmodninger, der fejler verifikation, bliver enten blokeret direkte eller behandlet som generisk trafik underlagt webstedets standard-hastigheds begrænsning og adgangskontroller.

Denne tilgang er overlegen adfærdsmæssig analyse af flere grunde. Adfærdsmæssig analyse forsøger at bestemme, om en besøgende er en bot baseret på, hvordan den interagerer med webstedet: anmodningshastighed, navigationsmønstre, JavaScript-eksekution, musemarkørbevægelser. Disse signaler er støjfyldt, genererer falske positiver og kan besejres af tilstrækkeligt sofistikerede bots, der efterligner menneskelig adfærd. IP-baseret verifikation giver derimod et binært resultat uden falske positiver. En anmodning kommer enten fra Googles netværk eller det gør det ikke. Der er ingen tvetydighed, ingen tærskel at tune, og ingen adfærdsmodel at træne.

Implementeringen behøver ikke at være synkron med hver anmodning for websteder, hvor ventetid er et problem. Verifikation kan køre asynkront, med resultater cached pr. IP-adresse. Når en IP er verificeret som værende Googlebot, kan alle efterfølgende anmodninger fra denne IP tillades uden re-verifikation i en konfigurerbar periode. Denne tilgang tilføjer ubetydelig latens til anmodningspipelinen, mens den giver omfattende beskyttelse mod impersonering. Cache-perioden afspejler et kompromis: længere cache betyder færre API-kald, men et lidt større vindue, hvor en tidligere verificeret IP teoretisk kunne ændre ejerskab. I praksis er søgemaskine-IP-tildelinger ekstremt stabile, og cache-varigheder på tyve og fire timer eller længere er sikre for de fleste applikationer.

Resultatet af implementering af identitets-baseret bot-verifikation er en renere, mere ærlig visning af hvad der faktisk rammer serveren. Rigtige crawlere er velkomne. Falske crawlere bliver afsløret og blokeret. Analytikdata afspejler virkelighed i stedet for fiktion. Serverressourcer bliver allokeret til rigtige besøgende og legitime crawlere i stedet for at blive spildt på bedragere. Zoologien af internetbots er kompleks og konstant udvikler sig, men det grundlæggende princip om verifikation ved netværksopprindelse forbliver effektiv uanset hvordan bot-økosystemet ændrer sig.

Ofte Stillede Spørgsmål

Hvordan verificerer jeg, om en anmodning virkelig er fra Googlebot?

Udfør en omvendt DNS-opslag på IP-adressen og bekræft, at værtsnavnet ender på googlebot.com eller google.com. Udfør derefter et fremadrettet DNS-opslag på det værtsnavn og bekræft, at det løser tilbage til den samme IP. Alternativt kan du kontrollere, at IP-adressen hører til AS15169, som er Googles autonome system. Bot-detektions-API'en udfører alle disse kontrols i et enkelt kald.

Kan en bot forfals sin IP-adresse for at se ud som Googlebot?

IP-adresser kan ikke forfalskes for TCP-forbindelser, fordi TCP-håndskaget kræver tovejskommunikation. En bot kan forfals en user agent-streng trivielt, men den kan ikke etablere en TCP-forbindelse med en forfalsket kilde-IP. Dette er grunden til, at IP-baseret verifikation er definitiv, mens user agent-baseret identifikation ikke er det.

Hvad er et ASN og hvorfor betyder det noget for bot-detektion?

Et ASN, eller Autonomous System Number, identificerer et netværk, der opereres af en enkelt organisation. Googles netværk er AS15169, Microsoft bruger flere ASN'er, og OpenAI har sine egne udpegede områder. At kontrollere en bots IP mod det forventede ASN afslører omgående, om anmodningen kommer fra den påståede organisations infrastruktur eller fra et uafhængigt datacenter.

Bør jeg blokere alle bots, der fejler verifikation?

At blokere bots, der uretmæssigt udgiver sig for at være specifikke søgemaskiner, er generelt sikkert og anbefalet. Dog ikke alle uverificerede bots er ondskabsfulde. Nogle er legitime værktøjer, der simpelt hen ikke udgiver sig for at være crawlere. Den vigtige skelnen er mellem bots, der lyver om deres identitet (som bør blokeres), og bots, der ærligt identificerer sig selv (som kan evalueres individuelt).

Hvor almindelig er bot-impersonering på typiske websteder?

Udbredelsen varierer efter webstedets størrelse og indholdtype. Websteder med høj domæneautoritet, værdifuldt indhold eller stort antal sider har tendens til at tiltrække flere falske crawlere. Industridata antyder, at bottrafik tegner sig for tredive til halvtreds procent af al webtrafikk globalt, og en betydelig del heraf er impersonerings trafik, der påstår at være legitime søgemaskine-crawlere.

Påvirker blokeringen af falske bots den rigtige søgemaskine-indeksering?

Nej. Verifikations-baseret blokering påvirker kun anmodninger fra IP-adresser, der ikke hører til den påståede søgemaskine. Rigtig Googlebot, Bingbot og andre legitime crawlere passerer verifikation og fortsætter med at få adgang til webstedet normalt. Det eneste impact er på bedragerne.

Falsk GoogleBot Falsk ChatGPT-crawler Falsk Bing og internettets Bot-zoologi

Falsk GoogleBot Falsk ChatGPT-crawler Falsk Bing og internettets Bot-zoologi

Arterne af Falsk Googlebot

Bingbot og dens Bedragere

ChatGPT-crawleren og den nye bølge af AI-bots

De mindre Spillere og Long Tail af Bot-impersonering

Byggeri af et Forsvar baseret på Identitetsverifikation

Ofte Stillede Spørgsmål

Hvordan verificerer jeg, om en anmodning virkelig er fra Googlebot?

Kan en bot forfals sin IP-adresse for at se ud som Googlebot?

Hvad er et ASN og hvorfor betyder det noget for bot-detektion?

Bør jeg blokere alle bots, der fejler verifikation?

Hvor almindelig er bot-impersonering på typiske websteder?

Påvirker blokeringen af falske bots den rigtige søgemaskine-indeksering?

Tags

Også tilgængelig på: