Gefälschter GoogleBot, Gefälschter ChatGPT-Crawler, Gefälschter Bing und die Zoologie von Internet-Bots
Das Internet hat ein Wildnis-Problem. Unterhalb der Oberfläche menschlicher Browsing-Aktivitäten existiert ein ganzes Ökosystem automatisierter Programme, die Web-Seiten im großen Maßstab crawlen, scrapen, untersuchen und anfordern. Einige dieser Bots sind vorteilhaft. Der Crawler von Google indexiert Seiten, damit sie in den Suchergebnissen erscheinen. Der Crawler von Bing macht das Gleiche für die Suchmaschine von Microsoft. Der Crawler von OpenAI sammelt Trainingsdaten für Sprachmodelle. Diese legitimen Crawler identifizieren sich ehrlich, folgen den Regeln, die in robots.txt-Dateien angegeben sind, und betreiben sich von bekannter Infrastruktur aus. Aber auf jeden legitimen Crawler folgen Dutzende von Betrügern, die denselben Namenzettel tragen, während sie etwas ganz anderes tun. Sie melden sich als Googlebot in ihrer User-Agent-Zeichenkette an, behaupten, Seiten für die Suche zu indexieren, und verlassen sich darauf, dass die meisten Web-Server ihnen auf der Grundlage dieser behaupteten Identität bevorzugte Behandlung gewähren. Die Zoologie dieser Internet-Bots ist genauso komplex, wettbewerbsorientiert und gelegentlich bizarr wie jedes biologische Ökosystem.
Das Verständnis dieses Ökosystems ist wichtig für jeden, der eine Website betreibt, da die Entscheidung, einen Bot zu vertrauen oder zu blockieren, direkte Konsequenzen hat. Das Blockieren eines echten Suchmaschinen-Crawlers bedeutet, dass Seiten nicht mehr in den Suchergebnissen erscheinen. Das Vertrauen in einen gefälschten bedeutet, dass ein Scraper, ein Tool zur Wettbewerbsintelligenz oder ein böser Akteur Serverressourcen verbrauchen kann, während er so tut, als würde er Wert bieten. Die Fähigkeit, zwischen echten und gefälschten Crawlern zu unterscheiden, ist keine theoretische Sicherheitsübung. Es ist eine praktische Notwendigkeit, die Bandbreitenkosten, Serverleistung, Analysegenauigkeit und Inhaltsschutz beeinflusst. Die Bot-Erkennungs-API existiert genau für diesen Zweck und bietet eine definitive Überprüfung der Crawler-Identität basierend auf dem einen, was nicht gefälscht werden kann: die Netzwerkinfrastruktur, von der aus sich der Bot verbindet.
Die Arten gefälschter Googlebot
Googlebot ist der am häufigsten imitierte Crawler im Internet, und die Gründe sind offensichtlich. Websites gewähren Googlebot routinemäßig besondere Privilegien. Ratenbegrenzungen werden gelockert. Paywalls werden entfernt. Inhalte, die hinter JavaScript-Rendering verborgen sind, werden speziell für Googles Crawler vorab gerendert. Robots.txt-Regeln erlauben Googlebot oft explizit den Zugriff auf Abschnitte, die für andere Crawler eingeschränkt sind. Indem sie sich als Googlebot ausgeben, erbt ein gefälschter Crawler alle diese Privilegien, ohne sie sich verdient zu haben. Die Website stellt ihren besten Inhalt, die schnellsten Reaktionen und die vollständigsten Seiten dem zur Verfügung, von dem sie glaubt, dass es Googles Indexierungsinfrastruktur ist, wenn es in Wirklichkeit ein Scraper ist, der von einem gemieteten Server in einem Rechenzentrum aus betrieben wird.
Echter Googlebot ist mit absoluter Sicherheit identifizierbar. Er betreibt sich ausschließlich von IP-Adressen innerhalb des autonomen Systems von Google, AS15169. Eine Reverse-DNS-Abfrage einer IP-Adresse von echtem Googlebot gibt einen Hostnamen zurück, der auf googlebot.com oder google.com endet. Eine Forward-DNS-Abfrage dieses Hostnamens wird zurück zu der ursprünglichen IP-Adresse aufgelöst. Diese dreistufige Überprüfungskette, IP zu Hostname zu IP, ist kryptographisch an die DNS-Infrastruktur von Google gebunden und kann nicht gefälscht werden, ohne Googles DNS-Server zu kompromittieren, was praktisch unmöglich ist. Der Google-Bot-Detektor führt genau diese Überprüfungskette durch und gibt ein definitives Ergebnis zurück.
Gefälschter Googlebot stammt im Gegensatz dazu aus der allgemeinen Cloud-Infrastruktur, die jeder von der Stunde an mieten kann. Amazon Web Services, Google Cloud Platform (ironischerweise), Microsoft Azure, DigitalOcean, Hetzner, OVH und Contabo sind häufige Ursprünge. Die User-Agent-Zeichenkette wird wörtlich von echtem Googlebot kopiert, oft einschließlich der Versionsnummer und des Crawl-URL-Formats. Einige ausgefeilte Fälschungen ahmen sogar Googlebots Anfordernungsmuster nach, verteilen ihre Anforderungen und folgen Links in einem Muster, das legitimes Crawling ähnelt. Aber die IP-Adresse gibt sie jedes Mal weg. Keine Menge Verhaltensimitation kann die Tatsache ändern, dass die Anforderung von AS16509 (Amazon) statt von AS15169 (Google) stammt.
Bingbot und seine Betrüger
Der Bingbot von Microsoft ist der zweithäufigste imitierte Crawler, und seine Überprüfung folgt einem ähnlichen Muster wie Googlebot, aber mit einigen wichtigen Unterschieden. Echter Bingbot betreibt sich von Microsofts Infrastruktur aus, und seine IP-Adressen werden über Reverse-DNS zu Hostnamen in der Domäne search.msn.com aufgelöst. Die ASN-Überprüfung prüft gegen Microsofts autonome Systeme, die mehrere ASNs enthalten, da das Unternehmen über eine umfangreiche Netzwerkinfrastruktur verfügt. Die Überprüfung ist gleichermaßen zuverlässig, erfordert aber ein Bewusstsein für Microsofts breitere IP-Zuweisung im Vergleich zu Googles konzentrierteren Bereich.
Gefälschter Bingbot dient vielen der gleichen Zwecke wie gefälschter Googlebot, erscheint aber in etwas geringeren Mengen, was Bings kleineren Marktanteil und den entsprechend kleineren Anreiz widerspiegelt, ihn zu imitieren. Websites, die speziell für Bing optimiert sind oder die unterschiedliche Inhalte für Bingbot bereitstellen, ziehen jedoch unverhältnismäßig viel Imitation an. SEO-Tools, die analysieren, wie eine Seite vor Bings Crawler aussieht, verwenden oft gefälschte Bingbot-User-Agents, um die Bing-spezifische Version von Seiten zu erhalten. Wettbewerbsintelligenz-Services machen das Gleiche, um zu sehen, welche Inhalte Konkurrenten speziell für Microsofts Suchinfrastruktur bereitstellen.
Die Erkennungsmethodologie ist im Prinzip identisch. Überprüfen Sie die IP-Adresse gegen Microsofts bekannte Bereiche. Führen Sie die Reverse- und Forward-DNS-Überprüfung durch. Bestätigen Sie, dass die ASN übereinstimmt. Eine Anforderung, die behauptet, von Bingbot zu sein, aber von einem Hetzner-Server in Finnland stammt, ist mit absoluter Sicherheit gefälscht, unabhängig davon, wie überzeugend die User-Agent-Zeichenkette ist. Die Bot-Erkennungs-API verwaltet diese Überprüfung automatisch, prüft die behauptete Identität gegen den tatsächlichen Netzwerkursprung und gibt ein klares Urteil zurück.
Der ChatGPT-Crawler und die neue Welle von KI-Bots
Die Entstehung großer Sprachmodelle hat eine völlig neue Kategorie von Web-Crawlern und eine völlig neue Kategorie von Imitation geschaffen. GPTBot von OpenAI crawlt das Web, um Trainingsdaten zu sammeln, und seine Präsenz ist zu einem der kontroversesten Themen im Web Publishing geworden. Viele Verlage wollen GPTBot blockieren, um zu verhindern, dass ihr Inhalt für KI-Training verwendet wird. Andere wollen es zulassen, in der Hoffnung, in den Antworten von ChatGPT bevorzugt behandelt zu werden. In jedem Fall ist die Fähigkeit, echten GPTBot von gefälschten Versionen zu unterscheiden, entscheidend für die Durchsetzung, welche Richtlinie der Verleger auch immer gewählt hat.
Echter GPTBot, wie echter Googlebot, betreibt sich von einem spezifischen Satz von IP-Adressen, die mit der Infrastruktur von OpenAI verbunden sind. Die User-Agent-Zeichenkette identifiziert sich klar, und die IP-Bereiche sind veröffentlicht und überprüfbar. Gefälschter GPTBot, der sich seit dem Start von ChatGPT schnell verbreitet hat, verwendet die gleiche User-Agent-Zeichenkette, verbindet sich aber von unabhängiger Infrastruktur aus. Die Motivationen für die Imitation von GPTBot sind vielfältig. Einige Scraper verwenden es, weil Verlage, die sich dafür entschieden haben, KI-Training-Crawler zu erlauben, Inhalte frei für alles bereitstellen, das behauptet, GPTBot zu sein. Andere verwenden es als generische Deckidentität, in der Hoffnung, dass Serveradministratoren mit Openais IP-Bereichen weniger vertraut sind als mit Googles und daher weniger geneigt sind, den Anspruch zu überprüfen. Der OpenAI-Crawler-Detektor befasst sich direkt damit und überprüft, ob eine behauptete GPTBot-Anforderung tatsächlich von Openais Netzwerk stammt.
Jenseits von GPTBot erweitert sich die KI-Crawler-Landschaft schnell. Anthropic, Perplexity, Meta und zahlreiche kleinere KI-Unternehmen betreiben alle Web-Crawler mit unterschiedlichem Grad an Transparenz über ihre Aktivitäten. Jeder dieser Crawler kann imitiert werden, und jede Imitation hat ihre eigenen Implikationen, je nachdem, wie die Zielsite diesen bestimmten Crawler behandelt. Eine Site, die alle KI-Crawler blockiert, mit Ausnahme von GPTBot, schafft beispielsweise einen starken Anreiz für Scraper, speziell GPTBot zu imitieren, da es die einzige Identität ist, die ohne Einschränkung mit Inhalt versorgt wird.
Die kleineren Spieler und der lange Schwanz der Bot-Imitation
Das Bot-Ökosystem erstreckt sich weit über Google, Bing und OpenAI hinaus. Yandex betreibt einen bedeutenden Crawler für das russischsprachige Web, und gefälschte Yandex-Bots sind auf Sites mit russischsprachigen Inhalten oder die speziell unterschiedliche Inhalte für Yandex bereitstellen, üblich. DuckDuckGos Crawler, DuckDuckBot, wird imitiert, trotz DuckDuckGos relativ kleinem Marktanteil, weil Sites, die datenschutzbewussten Benutzern gerecht werden, DuckDuckBot oft bevorzugten Zugriff gewähren. Qwant, die französische Suchmaschine, und Seznam, die tschechische Suchmaschine, haben beide Crawler, die in ihren jeweiligen regionalen Märkten imitiert werden.
Die Verifizierungsmethodologie funktioniert für alle identisch. Jeder legitime Crawler betreibt sich von einem bekannten Satz von IP-Adressen, die mit der Netzwerkinfrastruktur seines Betreibers verbunden sind. Die ASN identifiziert das Netzwerk. Das Reverse-DNS bestätigt den Hostnamen. Das Forward-DNS bestätigt die IP. Diese Überprüfungskette ist universell und gilt unabhängig vom spezifischen überprüften Crawler. Der Unterschied liegt nur in den Referenzdaten: welche ASNs, welche Hostnamen-Muster und welche IP-Bereiche zu jedem Crawler gehören. Die Bot-Erkennungs-API verwaltet diese Referenzdatensätze für acht großen Crawler und stellt die Überprüfung als einen einzelnen API-Aufruf bereit.
Der lange Schwanz des Bot-Ökosystems umfasst auch Crawler, die niemanden imitieren. Dies sind die ehrlichen Bots. SEO-Tools wie Ahrefs, SEMrush und Moz betreiben Crawler, die sich genau in ihren User-Agent-Zeichenketten identifizieren. Preisvergleichsdienste, akademische Forschungs-Crawler, Barrierefreiheitsprüfer und Link-Validatoren kündigen alle ihre wahre Identität an. Diese Bots können auf jeder Website willkommen oder nicht willkommen sein, aber zumindest kann der Websitebetreiber eine informierte Entscheidung darüber treffen, ob er sie zulassen soll. Das Problem besteht speziell bei den Betrügern, den Bots, die über ihre Identität lügen, um Zugang zu erhalten, den sie sonst nicht hätten.
Aufbau einer Verteidigung basierend auf Identitätsüberprüfung
Die praktische Abwehr gegen Bot-Imitation ist einfach, sobald der Überprüfungsmechanismus vorhanden ist. Jede eingehende Anforderung, die behauptet, von einem Suchmaschinen-Crawler zu sein, wird gegen die bekannte Infrastruktur des Crawlers überprüft. Anforderungen, die die Überprüfung bestehen, werden mit den Privilegien durchgelassen, die die Site diesem Crawler gewährt. Anforderungen, die die Überprüfung nicht bestehen, werden entweder vollständig blockiert oder als generischer Datenverkehr behandelt, der den standardmäßigen Ratenbegrenzungen und Zugriffskontrolmen der Site unterliegt.
Dieser Ansatz ist aus mehreren Gründen der Verhaltensanalyse überlegen. Die Verhaltensanalyse versucht zu bestimmen, ob ein Besucher ein Bot ist, basierend auf seiner Interaktion mit der Site: Anforderungsrate, Navigationsmuster, JavaScript-Ausführung, Mausbewegungen. Diese Signale sind verrauscht, erzeugen falsch positive Ergebnisse und können von ausreichend ausgefeilten Bots besiegt werden, die menschliches Verhalten nachahmen. IP-basierte Überprüfung hingegen erzeugt ein binäres Ergebnis ohne falsch positive Ergebnisse. Eine Anforderung stammt entweder von Googles Netzwerk oder nicht. Es gibt keine Mehrdeutigkeit, keinen Schwellenwert zum Abstimmen und kein Verhaltensmodell zum Trainieren.
Die Implementierung muss nicht mit jeder Anforderung synchron erfolgen, um Seiten zu erfassen, bei denen Latenz ein Problem ist. Die Überprüfung kann asynchron mit pro IP-Adresse zwischengespeicherten Ergebnissen ausgeführt werden. Sobald eine IP als zugehörig zu Googlebot überprüft wird, können alle nachfolgenden Anforderungen von dieser IP ohne erneute Überprüfung für einen konfigurierbaren Zeitraum zugelassen werden. Dieser Ansatz fügt der Anforderungs-Pipeline zu Zeiten hinzu, die vernachlässigbar sind, während sie umfassenden Schutz vor Imitation bieten. Die Zwischenspeicherungsdauer spiegelt einen Kompromiss wider: längere Zwischenspeicherung bedeutet weniger API-Aufrufe, aber ein etwas größeres Fenster, in dem sich der Besitz einer zuvor verifizierten IP theoretisch ändern könnte. In der Praxis sind Suchmaschinen-IP-Zuweisungen äußerst stabil, und Zwischenspeicherdauern von vierundzwanzig Stunden oder länger sind für die meisten Anwendungen sicher.
Das Ergebnis der Implementierung von identitätsbasierter Bot-Überprüfung ist eine sauberere, ehrlichere Ansicht davon, was tatsächlich den Server trifft. Echte Crawler werden willkommen geheißen. Gefälschte Crawler werden offengelegt und blockiert. Analysedaten spiegeln die Realität wider, nicht die Fiktion. Serverressourcen werden echten Besuchern und legitimen Crawlern zugeordnet, anstatt auf Betrüger verschwendet zu werden. Die Zoologie der Internet-Bots ist komplex und ständig in Entwicklung, aber das grundlegende Prinzip der Überprüfung nach Netzwerkursprung bleibt wirksam, unabhängig davon, wie sich das Bot-Ökosystem ändert.
Häufig gestellte Fragen
Wie überprüfe ich, ob eine Anforderung wirklich von Googlebot stammt?
Führen Sie eine Reverse-DNS-Abfrage für die IP-Adresse durch und bestätigen Sie, dass der Hostname auf googlebot.com oder google.com endet. Führen Sie dann eine Forward-DNS-Abfrage für diesen Hostnamen durch und bestätigen Sie, dass er zurück zu derselben IP aufgelöst wird. Alternativ überprüfen Sie, dass die IP zu AS15169 gehört, bei dem es sich um das autonome System von Google handelt. Die Bot-Erkennungs-API führt alle diese Überprüfungen in einem einzelnen Aufruf durch.
Kann ein Bot seine IP-Adresse fälschen, um wie Googlebot auszusehen?
IP-Adressen können für TCP-Verbindungen nicht gefälscht werden, da der TCP-Handshake bidirektionale Kommunikation erfordert. Ein Bot kann eine User-Agent-Zeichenkette trivial fälschen, aber es kann keine TCP-Verbindung mit einer gefälschten Quell-IP herstellen. Dies ist der Grund, warum IP-basierte Überprüfung definitiv ist, während User-Agent-basierte Identifikation nicht ist.
Was ist eine ASN und warum ist sie für Bot-Erkennung wichtig?
Eine ASN oder Autonomous System Number identifiziert ein Netzwerk, das von einer einzelnen Organisation betrieben wird. Das Netzwerk von Google ist AS15169, Microsoft verwendet mehrere ASNs, und OpenAI hat seine eigenen designierten Bereiche. Das Überprüfen der IP eines Bots gegen die erwartete ASN offenbart sofort, ob die Anforderung von der Infrastruktur der behaupteten Organisation oder von einem unabhängigen Rechenzentrum stammt.
Sollte ich alle Bots blockieren, die die Überprüfung nicht bestehen?
Das Blockieren von Bots, die spezifische Suchmaschinen imitieren, ist im Allgemeinen sicher und wird empfohlen. Jedoch sind nicht alle unverifizierten Bots bösartig. Einige sind legitime Tools, die einfach nicht Crawler imitieren. Die wichtigste Unterscheidung besteht zwischen Bots, die über ihre Identität lügen, die blockiert werden sollten, und Bots, die sich ehrlich identifizieren, die einzeln bewertet werden können.
Wie verbreitet ist Bot-Imitation auf typischen Websites?
Die Verbreitung variiert je nach Site-Größe und Inhaltstyp. Sites mit hoher Domänenbehörde, wertvollen Inhalten oder großen Seitenzahlen ziehen mehr gefälschte Crawler an. Branchendaten deuten darauf hin, dass Bot-Datenverkehr weltweit dreißig bis fünfzig Prozent des gesamten Web-Datenverkehrs ausmacht, und ein großer Teil davon ist Imitations-Datenverkehr, der behauptet, legitime Suchmaschinen-Crawler zu sein.
Beeinflusst das Blockieren von gefälschten Bots die echte Suchmaschinen-Indexierung?
Nein. Überprüfungsbasiertes Blockieren wirkt sich nur auf Anforderungen von IP-Adressen aus, die nicht zur behaupteten Suchmaschine gehören. Echter Googlebot, Bingbot und andere legitime Crawler bestehen die Überprüfung und greifen normal auf die Website zu. Die einzige Auswirkung ist auf Betrüger.