Nep GoogleBot, Nep ChatGPT-crawler, Nep Bing en de Zoölogie van Internetbots

Het internet heeft een wildernisproblem. Onder het oppervlak van menselijke browseractiviteit bestaat een volledig ecosysteem van geautomatiseerde programma's die webpagina's op enorme schaal crawlen, scrapen, onderzoeken en opvragen. Sommige van deze bots zijn nuttig. De crawler van Google indexeert pagina's zodat ze in zoekresultaten verschijnen. De crawler van Bing doet hetzelfde voor de zoekmachine van Microsoft. De crawler van OpenAI verzamelt trainingsgegevens voor taalmodellen. Deze legitieme crawlers identificeren zichzelf eerlijk, volgen de regels in robots.txt-bestanden en werken vanuit bekende infrastructuur. Maar voor elke legitieme crawler zijn er tientallen imposters die dezelfde naamkaartje dragen terwijl ze iets heel anders doen. Ze stellen zichzelf voor als Googlebot in hun user agent string, beweren pagina's voor zoekopdrachten te indexeren, en vertrouwen erop dat de meeste webservers hen op basis van die geclaimde identiteit voorkeurstatus zullen geven. De zoölogie van deze internetbots is net zo complex, competitief en af en toe absurd als elk biologisch ecosysteem.

Dit ecosysteem begrijpen is belangrijk voor iedereen die een website beheert, omdat de beslissing om een bot te vertrouwen of te blokkeren directe gevolgen heeft. Een echte zoekmachine-crawler blokkeren betekent dat pagina's uit zoekresultaten verdwijnen. Een nep vertrouwen betekent dat je een scraper, een competitieve inlichtingentool of een kwaadwillende partij toestaat serverresources te verbruiken terwijl ze doen alsof ze waarde bieden. Het vermogen om onderscheid te maken tussen echte en nep crawlers is geen theoretische veiligheidsoefening. Het is een praktische noodzaak die bandbreedtekosten, serverprestaties, analytische nauwkeurigheid en inhoudbescherming beïnvloedt. De botdetectie-API bestaat precies voor dit doel, wat definitieve verificatie van crawleridentiteit biedt op basis van het enige wat niet kan worden vervalst: de netwerkinfrastructuur waarvan de bot verbinding maakt.

De Soorten Nep GoogleBot

Googlebot is de meest nagebootste crawler op het internet, en de redenen zijn duidelijk. Websites geven Googlebot routinematig speciale privileges. Snelheidslimieten worden versoepeld. Betalingsmuren worden opgeheven. Content die achter JavaScript-rendering verborgen is, wordt vooraf weergegeven speciaal voor Googles crawler. Robots.txt-regels staan Googlebot-toegang tot secties die voor andere crawlers beperkt zijn, vaak expliciet toe. Door te beweren dat je Googlebot bent, erft een nep crawler al deze privileges zonder er een verdient te hebben. De website levert zijn beste content, snelste reacties en meest volledige pagina's aan wat het gelooft Googles indexeringsinfrastructuur is, terwijl de ontvanger in werkelijkheid een scraper van een gehuurde server in een datacentrum is.

Echte Googlebot is met absolute zekerheid identificeerbaar. Het werkt uitsluitend vanuit IP-adressen binnen Googles autonoom systeem, AS15169. Een omgekeerde DNS-lookup op elk echt Googlebot IP-adres retourneert een hostnaam die eindigt op googlebot.com of google.com. Een forward DNS-lookup op die hostnaam leidt terug naar het oorspronkelijke IP-adres. Deze driestaps verificatieketen, IP naar hostnaam naar IP, is cryptografisch gebonden aan Googles DNS-infrastructuur en kan niet worden vervalst zonder Googles DNS-servers in gevaar te brengen, wat praktisch onmogelijk is. De Google bot detector voert exact deze verificatieketen uit en retourneert een definitief resultaat.

Nep Googlebot daarentegen komt van de algemene cloudininfrastructuur die iedereen per uur kan huren. Amazon Web Services, Google Cloud Platform (ironisch genoeg), Microsoft Azure, DigitalOcean, Hetzner, OVH en Contabo zijn veel voorkomende bronnen. De user agent string is woordelijk van echte Googlebot gekopieerd, vaak inclusief het versienummer en het crawl-URL-formaat. Sommige geavanceerde nepen bootsen zelfs de aanvraagpatronen van Googlebot na, waarbij ze hun aanvragen afmeten en links volgen in een patroon dat legitiem crawlen lijkt. Maar het IP-adres verraadt hen elke keer. Geen hoeveelheid gedragsnavolging kan het feit veranderen dat de aanvraag afkomstig is van AS16509 (Amazon) in plaats van AS15169 (Google).

Bingbot en zijn Imposters

De Bingbot van Microsoft is de tweede meest nagebootste crawler, en de verificatie volgt een soortgelijk patroon als Googlebot, maar met enkele belangrijke verschillen. Echte Bingbot werkt vanuit Microsofts infrastructuur, en de bijbehorende IP-adressen worden opgelost via omgekeerde DNS naar hostnamen in het search.msn.com-domein. De ASN-verificatie controleert tegen Microsofts autonome systemen, die meerdere ASN's bevatten vanwege de uitgebreide netwerkinfrastructuur van het bedrijf. De verificatie is even betrouwbaar maar vereist bewustzijn van Microsofts bredere IP-allocatie in vergelijking met Googles meer geconsolideerde bereik.

Nep Bingbot dient veel dezelfde doeleinden als nep Googlebot maar verschijnt in iets lagere volumes, wat de kleinere marktaandeel van Bing en de overeenkomstige kleinere prikkel om het na te bootsen weerspiegelt. Websites die specifiek voor Bing optimaliseren of verschillende content aan Bingbot leveren, trekken echter onevenredig veel nabootsing aan. SEO-tools die analyseren hoe een pagina voor Bings crawler verschijnt, gebruiken vaak nep Bingbot user agents om de Bing-specifieke versie van pagina's op te halen. Concurrente inlichtingendiensten doen hetzelfde om te zien welke content concurrenten specifiek aan Microsofts zoekmachineinfrastructuur leveren.

De detectiemethodologie is in principe identiek. Controleer het IP-adres tegen Microsofts bekende bereiken. Voer de omgekeerde en forward DNS-verificatie uit. Bevestig dat de ASN overeenkomt. Een aanvraag die beweert van Bingbot te zijn maar afkomstig is van een Hetzner-server in Finland is met absolute zekerheid nep, ongeacht hoe overtuigend de user agent string is vervaarigd. De botdetectie-API verwerkt deze verificatie automatisch, controleert de geclaimde identiteit tegen de werkelijke netwerkoorsprong en geeft een duidelijk verdict.

De ChatGPT-Crawler en de Nieuwe Golf van AI-Bots

Het ontstaan van grote taalmodellen heeft een volledig nieuwe categorie webcrawlers en een volledig nieuwe categorie nabootsing gecreëerd. OpenAI's GPTBot crawlt het web om trainingsgegevens te verzamelen, en de aanwezigheid ervan is een van de meest omstreden onderwerpen in webpublicatie geworden. Veel uitgevers willen GPTBot blokkeren om te voorkomen dat hun content voor AI-training wordt gebruikt. Anderen willen het toestaan, hopend op gunstige behandeling in ChatGPT's reacties. In beide gevallen is het vermogen om echte GPTBot van nep versies te onderscheiden kritiek voor het afdwingen van welk beleid de uitgever ook heeft gekozen.

Echte GPTBot werkt, zoals echte Googlebot, vanuit een specifieke reeks IP-adressen die zijn gekoppeld aan OpenAI's infrastructuur. De user agent string identificeert zichzelf duidelijk, en de IP-bereiken zijn gepubliceerd en verifieerbaar. Nep GPTBot, dat sinds de lancering van ChatGPT snel is vermenigvuldigd, gebruikt dezelfde user agent string maar verbindt vanuit ongerelateerde infrastructuur. De motivaties voor het nabootsen van GPTBot zijn divers. Sommige scrapers gebruiken het omdat uitgevers die besloten hebben AI-training crawlers toe te staan, inhoud vrijelijk aan alles zullen serveren dat beweert GPTBot te zijn. Anderen gebruiken het als een algemene cover-identiteit, stellende dat serveradministrators minder vertrouwd zijn met OpenAI's IP-bereiken dan met Googles en daarom minder geneigd zijn de claim te verifiëren. De OpenAI-crawler detector behandelt dit rechtstreeks, waarbij wordt gecontroleerd of een beweerde GPTBot-aanvraag werkelijk afkomstig is van OpenAI's netwerk.

Voorbij GPTBot breidt het AI-crawler-landschap snel uit. Anthropic, Perplexity, Meta en talloze kleinere AI-bedrijven bedrijven allemaal webcrawlers met wisselende mate van transparantie over hun activiteiten. Elk van deze crawlers kan worden nagebootst, en elke nabootsing brengt zijn eigen implicaties mee afhankelijk van hoe de doelsite die bepaalde crawler behandelt. Een site die alle AI-crawlers blokkeert behalve GPTBot, creëert bijvoorbeeld een sterke prikkel voor scrapers om GPTBot specifiek na te bootsen, omdat het de enige identiteit is die content zonder restricties wordt geserveerd.

De Kleinere Spelers en de Lange Staart van Bot-Nabootsing

Het bot-ecosysteem strekt zich veel verder uit dan Google, Bing en OpenAI. Yandex bedrijft een aanzienlijke crawler voor het Russischsprekende web, en nep Yandex-bots komen veel voor op sites met Russischsprekende inhoud of die specifieke inhoud aan Yandex leveren. DuckDuckGo's crawler, DuckDuckBot, wordt nagebootst ondanks DuckDuckGo's relatief kleine marktaandeel, omdat sites die privacybewuste gebruikers bedienen DuckDuckBot voorkeurstoegang geven. Qwant, de Franse zoekmachine, en Seznam, de Tsjechische zoekmachine, hebben beide crawlers die in hun respectieve regionale markten worden nagebootst.

De verificatiemethodologie werkt identiek voor alle. Elke legitieme crawler werkt vanuit een bekende reeks IP-adressen die is gekoppeld aan de netwerkinfrastructuur van de operator. De ASN identificeert het netwerk. De omgekeerde DNS bevestigt de hostnaam. De forward DNS bevestigt het IP. Deze verificatieketen is universeel en is van toepassing ongeacht de specifieke crawler die wordt gecontroleerd. Het verschil zit alleen in de referentiegegevens: welke ASN's, welke hostnaamenpatronen en welke IP-bereiken horen bij elke crawler. De botdetectie-API onderhoudt deze referentiedatasets voor acht grote crawlers en biedt de verificatie als één API-aanroep.

De lange staart van het bot-ecosysteem omvat ook crawlers die niemand nabootsen. Dit zijn de eerlijke bots. SEO-tools zoals Ahrefs, SEMrush en Moz bedrijven crawlers die zichzelf nauwkeurig in hun user agent strings identificeren. Prijsvergelijkingsdiensten, onderzoekscrawlers van academische instellingen, toegankelijkheidscheckers en linkvalidators kondigen allemaal hun ware identiteit aan. Deze bots kunnen al dan niet welkom zijn op enige site, maar in ieder geval kan de site-operator een weloverwogen beslissing nemen over of deze toe te staan. Het probleem is specifiek de imposters, de bots die over hun identiteit liegen om toegang te krijgen die zij anders niet zouden krijgen.

Een Verdediging Bouwen op Basis van Identiteitsverificatie

De praktische verdediging tegen bot-nabootsing is rechtlijnig zodra het verificatiemechanisme op zijn plaats is. Elke inkomende aanvraag die beweert van een zoekmachine-crawler afkomstig te zijn, wordt gecontroleerd tegen de bekende infrastructuur van de crawler. Aanvragen die verificatie passeren, worden doorgelaten met alle privileges die de site aan die crawler toekent. Aanvragen die verificatie niet passeren, worden ofwel volledig geblokkeerd ofwel behandeld als generiek verkeer onderworpen aan de standaard snelheidsbeperking en toegangscontroles van de site.

Deze benadering is superieur aan gedragsanalyse om verschillende redenen. Gedragsanalyse probeert te bepalen of een bezoeker een bot is op basis van hoe deze interactie met de site: aanvraagsnelheid, navigatiepatronen, JavaScript-uitvoering, muisbewegingen. Deze signalen zijn lawaaierig, genereren fout-positieven en kunnen worden verslagen door voldoende geavanceerde bots die menselijk gedrag nabootsen. IP-gebaseerde verificatie daarentegen produceert een binair resultaat met nul fout-positieven. Een aanvraag komt ofwel van Googles netwerk ofwel niet. Er is geen dubbelzinnigheid, geen drempel om af te stemmen en geen gedragsmodel om te trainen.

De implementatie hoeft niet synchroon met elke aanvraag te zijn voor sites waar latentie een zorg is. Verificatie kan asynchroon worden uitgevoerd, met resultaten per IP-adres in cache opgeslagen. Zodra een IP is geverifieerd als behorende tot Googlebot, kunnen alle volgende aanvragen van dat IP zonder herverificatie gedurende een configureerbare periode worden toegestaan. Deze benadering voegt verwaarloosbare latentie toe aan de aanvraagpijplijn terwijl deze uitgebreide bescherming tegen nabootsing biedt. De cacheperiode weerspiegelt een afweging: langer cachen betekent minder API-aanroepen maar een iets groter venster waarin een eerder geverifieerd IP theoretisch van eigenaar zou kunnen veranderen. In de praktijk zijn zoekmachine-IP-allocaties extreem stabiel, en cacheduraties van vierentwintig uur of meer zijn veilig voor de meeste toepassingen.

Het resultaat van het implementeren van op identiteit gebaseerde botverificatie is een schonere, eerlijker weergave van wat werkelijk de server raakt. Echte crawlers worden verwelkomd. Nep crawlers worden blootgesteld en geblokkerd. Analytische gegevens weerspiegelen realiteit in plaats van fictie. Serverresources worden toegewezen aan echte bezoekers en legitieme crawlers in plaats van te worden verspild aan imposters. De zoölogie van internetbots is complex en voortdurend in ontwikkeling, maar het fundamentele principe van verificatie via netwerkoorsprong blijft effectief ongeacht hoe het bot-ecosysteem verandert.

Veelgestelde Vragen

Hoe verifieer ik of een verzoek werkelijk van Googlebot is?

Voer een omgekeerde DNS-lookup uit op het IP-adres en bevestig dat de hostnaam eindigt op googlebot.com of google.com. Voer vervolgens een forward DNS-lookup op die hostnaam uit en bevestig dat deze terugloopt naar hetzelfde IP. Controleer als alternatief dat het IP tot AS15169 behoort, wat Googles autonoom systeem is. De botdetectie-API voert al deze controles in één aanroep uit.

Kan een bot het IP-adres vervalsen om als Googlebot te verschijnen?

IP-adressen kunnen niet voor TCP-verbindingen worden vervalst omdat de TCP-handdruk bidirectionele communicatie vereist. Een bot kan een user agent string triviaal vervalsen, maar kan geen TCP-verbinding met een vervalst bronIP tot stand brengen. Dit is waarom IP-gebaseerde verificatie definitief is terwijl user agent-gebaseerde identificatie niet is.

Wat is een ASN en waarom is het belangrijk voor botdetectie?

Een ASN, of Autonoom Systeemnummer, identificeert een netwerk dat door een enkele organisatie wordt beheerd. Googles netwerk is AS15169, Microsoft gebruikt meerdere ASN's en OpenAI heeft zijn eigen aangewezen bereiken. Het controleren van een bot's IP tegen de verwachte ASN toont onmiddellijk aan of de aanvraag van de infrastructuur van de geclaimde organisatie afkomstig is of van een ongerelateerd datacentrum.

Moet ik alle bots blokkeren die verificatie niet doorstaan?

Het blokkeren van bots die specifieke zoekmachines nabootsen is over het algemeen veilig en aanbevolen. Niet alle onverifieerde bots zijn echter kwaadwillend. Sommige zijn legitieme tools die simpelweg geen crawlers nabootsen. Het belangrijkste onderscheid is tussen bots die over hun identiteit liegen, die moet worden geblokkerd, en bots die zichzelf eerlijk identificeren, die individueel kunnen worden geëvalueerd.

Hoe algemeen is bot-nabootsing op typische websites?

De prevalentie varieert naar site-grootte en inhoudstype. Sites met hoge domeinautoriteit, waardevolle inhoud of grote paginaaantallen trekken meer nep crawlers aan. Industriegegevens suggereren dat bot-verkeer voor dertig tot vijftig procent van al het webverkeer wereldwijd verantwoordelijk is, en een aanzienlijk deel daarvan is neppingverkeer dat beweert legitieme zoekmachine-crawlers te zijn.

Beïnvloedt het blokkeren van nep bots echte zoekmachine-indexering?

Nee. Op verificatie gebaseerd blokkeren beïnvloedt alleen aanvragen van IP-adressen die niet tot de geclaimde zoekmachine behoren. Echte Googlebot, Bingbot en andere legitieme crawlers passeren verificatie en blijven normal de site openen. De enige impact is op imposters.

Nep GoogleBot, Nep ChatGPT-crawler, Nep Bing en de Zoölogie van Internetbots

Nep GoogleBot, Nep ChatGPT-crawler, Nep Bing en de Zoölogie van Internetbots

De Soorten Nep GoogleBot

Bingbot en zijn Imposters

De ChatGPT-Crawler en de Nieuwe Golf van AI-Bots

De Kleinere Spelers en de Lange Staart van Bot-Nabootsing

Een Verdediging Bouwen op Basis van Identiteitsverificatie

Veelgestelde Vragen

Hoe verifieer ik of een verzoek werkelijk van Googlebot is?

Kan een bot het IP-adres vervalsen om als Googlebot te verschijnen?

Wat is een ASN en waarom is het belangrijk voor botdetectie?

Moet ik alle bots blokkeren die verificatie niet doorstaan?

Hoe algemeen is bot-nabootsing op typische websites?

Beïnvloedt het blokkeren van nep bots echte zoekmachine-indexering?

Tags

Ook beschikbaar in: