Internet a un problème faunistique. Sous la surface de l'activité de navigation humaine existe un écosystème entier de programmes automatisés parcourant, grattant, sondant et demandant des pages web à grande échelle. Certains de ces robots sont bénéfiques. Le crawleur de Google indexe les pages pour qu'elles apparaissent dans les résultats de recherche. Le crawleur de Bing fait de même pour le moteur de recherche Microsoft. Le crawleur d'OpenAI collecte des données d'entraînement pour les modèles de langage. Ces crawleurs légitimes s'identifient honnêtement, respectent les règles spécifiées dans les fichiers robots.txt et opèrent à partir d'une infrastructure connue. Mais pour chaque crawleur légitime, il y a des dizaines d'imposteurs portant le même badge tout en faisant quelque chose d'entièrement différent. Ils s'annoncent comme Googlebot dans leur chaîne user agent, prétendent indexer les pages pour la recherche, et comptent sur le fait que la plupart des serveurs web leur accorderont un traitement préférentiel basé sur cette identité revendiquée. La zoologie de ces robots internet est aussi complexe, compétitive et occasionnellement bizarre que n'importe quel écosystème biologique.

Comprendre cet écosystème est important pour quiconque exploite un site web, car la décision de faire confiance ou de bloquer un robot a des conséquences directes. Bloquer un vrai crawleur de moteur de recherche signifie que les pages cessent d'apparaître dans les résultats de recherche. Faire confiance à un faux signifie permettre à un gratteur, un outil d'intelligence concurrentielle, ou un acteur malveillant de consommer les ressources du serveur tout en prétendant fournir de la valeur. La capacité à distinguer les vrais des faux crawleurs n'est pas un exercice de sécurité théorique. C'est une nécessité pratique qui affecte les coûts de bande passante, les performances du serveur, la précision des analyses et la protection du contenu. L'API de détection de robots existe précisément à cet effet, offrant une vérification définitive de l'identité du crawleur basée sur la seule chose qui ne peut pas être falsifiée : l'infrastructure réseau à partir de laquelle le robot se connecte.

Les Espèces de Faux GoogleBot

Googlebot est le crawleur le plus usurpé sur internet, et les raisons sont évidentes. Les sites web accordent régulièrement des privilèges spéciaux à Googlebot. Les limites de débit sont assouplies. Les murs payants sont levés. Le contenu caché derrière le rendu JavaScript est pré-rendu spécifiquement pour le crawleur Google. Les règles robots.txt permettent souvent explicitement à Googlebot l'accès à des sections qui sont restreintes pour les autres crawleurs. En se faisant passer pour Googlebot, un faux crawleur hérite de tous ces privilèges sans les avoir gagnés. Le site web sert son meilleur contenu, ses réponses les plus rapides et ses pages les plus complètes à ce qu'il croit être l'infrastructure d'indexation de Google, alors qu'en réalité le destinataire est un gratteur opérant à partir d'un serveur loué dans un centre de données.

Le vrai Googlebot est identifiable avec une certitude absolue. Il opère exclusivement à partir d'adresses IP au sein du système autonome de Google, AS15169. Une recherche DNS inverse sur n'importe quelle adresse IP réelle de Googlebot retourne un nom d'hôte se terminant par googlebot.com ou google.com. Une recherche DNS directe sur ce nom d'hôte se résout en l'adresse IP d'origine. Cette chaîne de vérification en trois étapes, IP vers nom d'hôte vers IP, est cryptographiquement liée à l'infrastructure DNS de Google et ne peut pas être usurpée sans compromettre les serveurs DNS de Google, ce qui est effectivement impossible. Le détecteur de GoogleBot effectue exactement cette chaîne de vérification et retourne un résultat définitif.

Le faux Googlebot, en revanche, provient de l'infrastructure cloud polyvalente que n'importe qui peut louer à l'heure. Amazon Web Services, Google Cloud Platform (ironiquement), Microsoft Azure, DigitalOcean, Hetzner, OVH et Contabo sont des origines courantes. La chaîne user agent est copiée textuellement à partir du vrai Googlebot, incluant souvent le numéro de version et le format d'URL du crawl. Certains faux sophistiqués imitent même les modèles de demande de Googlebot, en espaçant leurs demandes et en suivant les liens d'une manière qui ressemble à un crawl légitime. Mais l'adresse IP les trahit à chaque fois. Aucun mimétisme comportemental ne peut changer le fait que la demande provient d'AS16509 (Amazon) au lieu d'AS15169 (Google).

Bingbot et Ses Imposteurs

Bingbot de Microsoft est le deuxième crawleur le plus couramment usurpé, et sa vérification suit un modèle similaire à Googlebot mais avec quelques différences importantes. Le vrai Bingbot opère à partir de l'infrastructure Microsoft, et ses adresses IP se résolvent via DNS inverse aux noms d'hôte au sein du domaine search.msn.com. La vérification ASN vérifie les systèmes autonomes Microsoft, qui incluent plusieurs ASN en raison de l'infrastructure réseau extensive de l'entreprise. La vérification est tout aussi fiable mais nécessite une connaissance de l'allocation IP plus large de Microsoft comparée à la plage plus consolidée de Google.

Le faux Bingbot sert bon nombre des mêmes objectifs que le faux Googlebot mais apparaît dans des volumes quelque peu inférieurs, reflétant la part de marché plus petite de Bing et l'incitation correspondante plus petite à l'usurper. Cependant, les sites qui optimisent spécifiquement pour Bing ou qui servent un contenu différent à Bingbot attirent une usurpation disproportionnée. Les outils SEO qui analysent comment une page apparaît au crawleur de Bing utilisent souvent des faux user agents Bingbot pour récupérer la version spécifique à Bing des pages. Les services d'intelligence concurrentielle font de même pour voir quel contenu les concurrents servent spécifiquement à l'infrastructure de recherche Microsoft.

La méthodologie de détection est identique en principe. Vérifier l'adresse IP contre les plages connues Microsoft. Effectuer la vérification DNS inverse et directe. Confirmer que l'ASN correspond. Une demande prétendant être Bingbot qui provient d'un serveur Hetzner en Finlande est définitivement fausse, indépendamment de la façon dont la chaîne user agent est élaborée. L'API de détection de robots gère cette vérification automatiquement, en confrontant l'identité revendiquée à l'origine réseau réelle et en retournant un verdict clair.

Le Crawleur ChatGPT et la Nouvelle Vague de Robots IA

L'émergence des grands modèles de langage a créé une catégorie entièrement nouvelle de crawleurs web et une catégorie entièrement nouvelle d'usurpation. GPTBot d'OpenAI parcourt le web pour collecter des données d'entraînement, et sa présence est devenue l'un des sujets les plus controversés de l'édition web. De nombreux éditeurs veulent bloquer GPTBot pour empêcher leur contenu d'être utilisé pour la formation en IA. D'autres veulent l'autoriser, espérant un traitement favorable dans les réponses de ChatGPT. Quoi qu'il en soit, la capacité à distinguer le vrai GPTBot des fausses versions est critique pour appliquer la politique que l'éditeur a choisie.

Le vrai GPTBot, comme le vrai Googlebot, opère à partir d'un ensemble spécifique d'adresses IP associées à l'infrastructure OpenAI. La chaîne user agent s'identifie clairement, et les plages d'IP sont publiées et vérifiables. Le faux GPTBot, qui s'est proliféré rapidement depuis le lancement de ChatGPT, utilise la même chaîne user agent mais se connecte à partir d'une infrastructure non liée. Les motivations pour usurper GPTBot sont variées. Certains gratteurs l'utilisent parce que les éditeurs qui ont décidé d'autoriser les crawleurs d'entraînement en IA serviront le contenu librement à tout ce qui prétend être GPTBot. D'autres l'utilisent comme une identité générique de couverture, comptant sur l'hypothèse que les administrateurs de serveurs sont moins familiers avec les plages IP d'OpenAI qu'avec celles de Google et donc moins susceptibles de vérifier la revendication. Le détecteur de crawleur OpenAI aborde cela directement, en vérifiant si une demande prétendue GPTBot provient réellement du réseau OpenAI.

Au-delà de GPTBot, le paysage des crawleurs IA s'étend rapidement. Anthropic, Perplexity, Meta et de nombreuses plus petites entreprises d'IA exploitent tous des crawleurs web avec des degrés variables de transparence concernant leurs activités. Chacun de ces crawleurs peut être usurpé, et chaque usurpation comporte ses propres implications selon la façon dont le site cible traite ce crawleur particulier. Un site qui bloque tous les crawleurs IA sauf GPTBot, par exemple, crée une forte incitation pour les gratteurs à usurper GPTBot spécifiquement, car c'est l'une seule identité qui sera servie contenu sans restriction.

Les Petits Joueurs et la Longue Traîne de l'Usurpation de Robots

L'écosystème des robots s'étend bien au-delà de Google, Bing et OpenAI. Yandex opère un crawleur important pour le web russophone, et les faux robots Yandex sont courants sur les sites ayant du contenu en langue russe ou qui servent spécifiquement un contenu différent à Yandex. Le crawleur de DuckDuckGo, DuckDuckBot, est usurpé malgré la part de marché relativement petite de DuckDuckGo, car les sites qui s'adressent aux utilisateurs conscients de la confidentialité donnent souvent un accès préférentiel à DuckDuckBot. Qwant, le moteur de recherche français, et Seznam, le moteur de recherche tchèque, ont tous deux des crawleurs qui sont usurpés sur leurs marchés régionaux respectifs.

La méthodologie de vérification fonctionne de façon identique pour tous. Chaque crawleur légitime opère à partir d'un ensemble connu d'adresses IP associées à l'infrastructure réseau de son opérateur. L'ASN identifie le réseau. Le DNS inverse confirme le nom d'hôte. Le DNS directe confirme l'IP. Cette chaîne de vérification est universelle et s'applique indépendamment du crawleur spécifique en cours de vérification. La différence est seulement dans les données de référence : quels ASN, quels modèles de nom d'hôte et quelles plages d'IP appartiennent à chaque crawleur. L'API de détection de robots maintient ces ensembles de données de référence pour huit crawleurs majeurs et fournit la vérification en un seul appel API.

La longue traîne de l'écosystème des robots inclut également des crawleurs qui n'usurpent personne du tout. Ce sont les robots honnêtes. Les outils SEO comme Ahrefs, SEMrush et Moz opèrent des crawleurs qui s'identifient avec précision dans leurs chaînes user agent. Les services de comparaison de prix, les crawleurs de recherche académique, les vérificateurs d'accessibilité et les validateurs de liens annoncent tous leur véritable identité. Ces robots peuvent être les bienvenus ou non sur n'importe quel site, mais au moins l'opérateur du site peut prendre une décision éclairée quant à l'opportunité de les autoriser. Le problème est spécifiquement avec les imposteurs, les robots qui mentent sur qui ils sont pour obtenir un accès qu'ils ne recevraient pas autrement.

Construire une Défense Basée sur la Vérification d'Identité

La défense pratique contre l'usurpation de robots est simple une fois que le mécanisme de vérification est en place. Chaque demande entrante qui prétend provenir d'un crawleur de moteur de recherche est vérifiée par rapport à l'infrastructure connue du crawleur. Les demandes qui réussissent la vérification sont autorisées avec tous les privilèges que le site accorde à ce crawleur. Les demandes qui ne passent pas la vérification sont soit bloquées directement, soit traitées comme du trafic générique soumis aux contrôles de débit standard et aux contrôles d'accès du site.

Cette approche est supérieure à l'analyse comportementale pour plusieurs raisons. L'analyse comportementale tente de déterminer si un visiteur est un robot en fonction de la façon dont il interagit avec le site : taux de demande, modèles de navigation, exécution JavaScript, mouvements de souris. Ces signaux sont bruyants, génèrent des faux positifs et peuvent être déjoués par des robots suffisamment sophistiqués qui imitent le comportement humain. La vérification basée sur l'IP, en revanche, produit un résultat binaire sans faux positifs. Une demande provient soit du réseau de Google, soit elle ne le fait pas. Il n'y a pas d'ambiguïté, pas de seuil à régler et aucun modèle comportemental à entraîner.

La mise en œuvre n'a pas besoin d'être synchrone à chaque demande pour les sites où la latence est une préoccupation. La vérification peut s'exécuter de manière asynchrone, avec les résultats mis en cache par adresse IP. Une fois qu'une adresse IP est vérifiée comme appartenant à Googlebot, toutes les demandes suivantes de cette adresse IP peuvent être autorisées sans re-vérification pendant une période configurable. Cette approche ajoute une latence négligeable au pipeline de demande tout en fournissant une protection complète contre l'usurpation. La période de cache reflète un compromis : une mise en cache plus longue signifie moins d'appels API mais une fenêtre légèrement plus grande où une adresse IP précédemment vérifiée pourrait théoriquement changer de propriétaire. En pratique, les allocations d'IP des moteurs de recherche sont extrêmement stables, et les durées de cache de vingt-quatre heures ou plus sont sûres pour la plupart des applications.

Le résultat de la mise en œuvre de la vérification d'identité basée sur le robot est une vue plus claire et plus honnête de ce qui frappe réellement le serveur. Les crawleurs réels sont accueillis. Les faux crawleurs sont exposés et bloqués. Les données d'analyse reflètent la réalité au lieu de la fiction. Les ressources du serveur sont allouées aux véritables visiteurs et aux crawleurs légitimes au lieu d'être gaspillées sur des imposteurs. La zoologie des robots internet est complexe et en constante évolution, mais le principe fondamental de la vérification par origine réseau reste efficace indépendamment de la façon dont l'écosystème des robots change.

Foire aux Questions

Comment vérifier si une demande provient vraiment de Googlebot ?

Effectuez une recherche DNS inverse sur l'adresse IP et confirmez que le nom d'hôte se termine par googlebot.com ou google.com. Ensuite, effectuez une recherche DNS directe sur ce nom d'hôte et confirmez qu'il se résout en l'IP identique. Alternatively, vérifiez que l'IP appartient à AS15169, qui est le système autonome de Google. L'API de détection de robots effectue tous ces contrôles en un seul appel.

Un robot peut-il falsifier son adresse IP pour apparaître comme Googlebot ?

Les adresses IP ne peuvent pas être usurpées pour les connexions TCP car la poignée de main TCP nécessite une communication bidirectionnelle. Un robot peut falsifier facilement une chaîne user agent, mais il ne peut pas établir une connexion TCP avec une adresse IP source falsifiée. C'est pourquoi la vérification basée sur l'IP est définitive tandis que l'identification basée sur le user agent n'est pas.

Qu'est-ce qu'un ASN et pourquoi est-ce important pour la détection de robots ?

Un ASN, ou Numéro de Système Autonome, identifie un réseau exploité par une seule organisation. Le réseau de Google est AS15169, Microsoft en utilise plusieurs, et OpenAI a ses propres plages désignées. Vérifier l'IP du robot par rapport à l'ASN attendu révèle immédiatement si la demande provient de l'infrastructure de l'organisation revendiquée ou d'un centre de données non liée.

Dois-je bloquer tous les robots qui ne passent pas la vérification ?

Bloquer les robots qui usurpent des moteurs de recherche spécifiques est généralement sûr et recommandé. Cependant, tous les robots non vérifiés ne sont pas malveillants. Certains sont des outils légitimes qui ne se font simplement pas passer pour des crawleurs. La distinction clé est entre les robots qui mentent sur leur identité, qui doivent être bloqués, et les robots qui s'identifient honnêtement, qui peuvent être évalués individuellement.

Quelle est la fréquence de l'usurpation de robots sur les sites web typiques ?

La prévalence varie selon la taille du site et le type de contenu. Les sites ayant une autorité de domaine élevée, un contenu précieux ou un grand nombre de pages ont tendance à attirer plus de faux crawleurs. Les données du secteur suggèrent que le trafic des robots représente trente à cinquante pour cent de tout le trafic web à l'échelle mondiale, et une partie importante de cela est du trafic d'usurpation prétendant être des crawleurs légitimes de moteurs de recherche.

Le blocage des faux robots affecte-t-il l'indexation réelle des moteurs de recherche ?

Non. Le blocage basé sur la vérification affecte uniquement les demandes à partir d'adresses IP qui n'appartiennent pas au moteur de recherche revendiqué. Le vrai Googlebot, Bingbot et les autres crawleurs légitimes réussissent la vérification et continuent à accéder au site normalement. Le seul impact est sur les imposteurs.