Internet ha un problema di fauna selvatica. Sotto la superficie dell'attività di navigazione umana esiste un intero ecosistema di programmi automatizzati che crawlano, scrapano, investigano e richiedono pagine web su larga scala. Alcuni di questi bot sono utili. Il crawler di Google indicizza le pagine in modo che appaiano nei risultati di ricerca. Il crawler di Bing fa lo stesso per il motore di ricerca di Microsoft. Il crawler di OpenAI raccoglie dati di addestramento per i modelli linguistici. Questi crawler legittimi si identificano onestamente, seguono le regole specificate nei file robots.txt e operano da infrastrutture note. Ma per ogni crawler legittimo, ci sono dozzine di impostori che indossano lo stesso badge di identificazione mentre fanno qualcosa di completamente diverso. Si annunciano come Googlebot nella loro stringa user agent, sostengono di stare indicizzando le pagine per la ricerca e si affidano al fatto che la maggior parte dei server web concederà loro un trattamento preferenziale basato su questa identità dichiarata. La zoologia di questi bot di internet è complessa, competitiva e occasionalmente bizzarra come qualsiasi ecosistema biologico.
Comprendere questo ecosistema è importante per chiunque gestisca un sito web, perché la decisione di fidarsi o bloccare un bot ha conseguenze dirette. Bloccare un vero crawler di un motore di ricerca significa che le pagine smettono di apparire nei risultati di ricerca. Fidarsi di uno falso significa consentire a uno scraper, uno strumento di intelligence competitivo o un attore malintenzionato di consumare risorse del server mentre finge di fornire valore. La capacità di distinguere tra crawler reali e falsi non è un esercizio di sicurezza teorico. È una necessità pratica che influisce sui costi della larghezza di banda, sulle prestazioni del server, sulla precisione dell'analisi e sulla protezione dei contenuti. L'API di rilevamento bot esiste proprio per questo scopo, fornendo una verifica definitiva dell'identità del crawler basata sulla cosa che non può essere falsificata: l'infrastruttura di rete da cui il bot si connette.
Le Specie di Fake Googlebot
Googlebot è il crawler più falsificato su internet, e i motivi sono ovvi. I siti web routinariamente concedono a Googlebot privilegi speciali. I limiti di velocità sono ridotti. I muri a pagamento vengono eliminati. I contenuti nascosti dietro il rendering JavaScript vengono pre-renderizzati specificamente per il crawler di Google. Le regole di robots.txt spesso consentono esplicitamente l'accesso di Googlebot a sezioni che sono limitate per altri crawler. Affermando di essere Googlebot, un crawler falso eredita tutti questi privilegi senza meritarne nessuno. Il sito serve il suo miglior contenuto, le risposte più veloci e le pagine più complete a quello che crede sia l'infrastruttura di indicizzazione di Google, mentre in realtà il destinatario è uno scraper che opera da un server affittato in un data center.
Il vero Googlebot è identificabile con assoluta certezza. Funziona esclusivamente da indirizzi IP all'interno del sistema autonomo di Google, AS15169. Una ricerca DNS inversa su qualsiasi indirizzo IP reale di Googlebot restituisce un nome host che termina con googlebot.com o google.com. Una ricerca DNS diretta su quel nome host si risolve di nuovo all'indirizzo IP originale. Questa catena di verifica in tre fasi, da IP a hostname a IP, è crittograficamente legata all'infrastruttura DNS di Google e non può essere falsificata senza compromettere i server DNS di Google, il che è praticamente impossibile. L'rilevatore di bot Google esegue questa esatta catena di verifica e restituisce un risultato definitivo.
Fake Googlebot, al contrario, proviene dall'infrastruttura cloud generale che chiunque può affittare all'ora. Amazon Web Services, Google Cloud Platform (ironicamente), Microsoft Azure, DigitalOcean, Hetzner, OVH e Contabo sono origini comuni. La stringa user agent è copiata verbatim dal vero Googlebot, spesso includendo il numero di versione e il formato dell'URL di crawl. Alcuni falsi sofisticati persino imitano i modelli di richiesta di Googlebot, distanziando le loro richieste e seguendo i link in un modello che assomiglia al crawling legittimo. Ma l'indirizzo IP li tradisce ogni volta. Nessuna quantità di mimesi comportamentale può cambiare il fatto che la richiesta proviene da AS16509 (Amazon) invece di AS15169 (Google).
Bingbot e i Suoi Impostori
Bingbot di Microsoft è il secondo crawler più comunemente falsificato, e la sua verifica segue uno schema simile a Googlebot ma con alcune differenze importanti. Il vero Bingbot opera dall'infrastruttura di Microsoft, e i suoi indirizzi IP si risolvono tramite DNS inverso a nomi host all'interno del dominio search.msn.com. La verifica dell'ASN controlla i sistemi autonomi di Microsoft, che includono diversi ASN a causa dell'estesa infrastruttura di rete dell'azienda. La verifica è ugualmente affidabile ma richiede consapevolezza dell'allocazione IP più ampia di Microsoft rispetto alla gamma più consolidata di Google.
Fake Bingbot serve molti degli stessi scopi di fake Googlebot ma appare in volumi leggermente inferiori, riflettendo la quota di mercato più piccola di Bing e l'incentivo corrispondentemente minore a falsificarla. Tuttavia, i siti web che si ottimizzano specificamente per Bing o che servono contenuti diversi a Bingbot attraggono falsificazione sproporzionata. Gli strumenti SEO che analizzano come una pagina appare al crawler di Bing spesso usano user agent Bingbot falsi per recuperare la versione specifica di Bing delle pagine. I servizi di intelligence competitiva fanno lo stesso per vedere quale contenuto i concorrenti stanno servendo specificamente all'infrastruttura di ricerca di Microsoft.
La metodologia di rilevamento è identica in linea di principio. Controlla l'indirizzo IP rispetto agli intervalli noti di Microsoft. Esegui la verifica DNS diretta e inversa. Conferma che l'ASN corrisponda. Una richiesta che sostiene di provenire da Bingbot ma che origina da un server Hetzner in Finlandia è falsa con assoluta certezza, indipendentemente da quanto convincentemente la stringa user agent sia realizzata. L'API di rilevamento bot gestisce questa verifica automaticamente, controllando l'identità dichiarata rispetto all'origine della rete effettiva e restituendo un verdetto chiaro.
Il Crawler di ChatGPT e la Nuova Ondata di Bot AI
L'emergere di grandi modelli linguistici ha creato un'intera nuova categoria di crawler web e un'intera nuova categoria di falsificazione. GPTBot di OpenAI crawla il web per raccogliere dati di addestramento, e la sua presenza è diventata uno degli argomenti più controversi nella pubblicazione web. Molti editori vogliono bloccare GPTBot per impedire che i loro contenuti vengano utilizzati per l'addestramento dell'IA. Altri vogliono consentirlo, sperando in un trattamento favorevole nelle risposte di ChatGPT. In ogni caso, la capacità di distinguere il vero GPTBot dalle versioni false è critica per l'applicazione di qualunque politica l'editore abbia scelto.
Il vero GPTBot, come il vero Googlebot, opera da un insieme specifico di indirizzi IP associati all'infrastruttura di OpenAI. La stringa user agent si identifica chiaramente, e gli intervalli IP sono pubblicati e verificabili. Fake GPTBot, che si è proliferato rapidamente dalla lancio di ChatGPT, usa la stessa stringa user agent ma si connette da infrastruttura non correlata. Le motivazioni per falsificare GPTBot sono varie. Alcuni scraper lo usano perché gli editori che hanno deciso di consentire crawler di addestramento AI serviranno contenuti liberamente a qualsiasi cosa che affermi di essere GPTBot. Altri lo usano come identità di copertura generica, contando sull'assunzione che gli amministratori di server abbiano meno familiarità con gli intervalli IP di OpenAI rispetto a quelli di Google e quindi meno probabilità di verificare l'affermazione. Il rilevatore di crawler OpenAI affronta questo direttamente, verificando se una richiesta dichiarata di GPTBot proviene effettivamente dalla rete di OpenAI.
Oltre a GPTBot, il paesaggio dei crawler AI si sta espandendo rapidamente. Anthropic, Perplexity, Meta e numerose aziende AI più piccole operano tutti crawler web con vari gradi di trasparenza sulle loro attività. Ognuno di questi crawler può essere falsificato, e ogni falsificazione porta con sé le sue implicazioni a seconda di come il sito di destinazione tratta quel particolare crawler. Un sito che blocca tutti i crawler AI tranne GPTBot, ad esempio, crea un forte incentivo per gli scraper a falsificare specificamente GPTBot, perché è l'identità che sarà servita contenuti senza restrizioni.
I Piccoli Giocatori e la Coda Lunga della Falsificazione di Bot
L'ecosistema dei bot si estende ben oltre Google, Bing e OpenAI. Yandex gestisce un crawler significativo per il web in lingua russa, e i bot Yandex falsi sono comuni nei siti con contenuti in lingua russa o che servono specificamente contenuti diversi a Yandex. Il crawler di DuckDuckGo, DuckDuckBot, viene falsificato nonostante la quota di mercato relativamente piccola di DuckDuckGo, perché i siti che si rivolgono agli utenti consapevoli della privacy spesso danno a DuckDuckBot accesso preferenziale. Qwant, il motore di ricerca francese, e Seznam, il motore di ricerca ceco, hanno entrambi crawler che vengono falsificati nei loro rispettivi mercati regionali.
La metodologia di verifica funziona in modo identico per tutti loro. Ogni crawler legittimo opera da un insieme noto di indirizzi IP associati all'infrastruttura di rete del suo operatore. L'ASN identifica la rete. Il DNS inverso conferma il nome host. Il DNS diretto conferma l'IP. Questa catena di verifica è universale e si applica indipendentemente dal crawler specifico in fase di controllo. La differenza è solo nei dati di riferimento: quali ASN, quali modelli di hostname e quali intervalli IP appartengono a ogni crawler. L'API di rilevamento bot mantiene questi set di dati di riferimento per otto crawler principali e fornisce la verifica come una singola chiamata API.
La coda lunga dell'ecosistema dei bot include anche crawler che non falsificano nessuno. Questi sono i bot onesti. Strumenti SEO come Ahrefs, SEMrush e Moz operano crawler che si identificano accuratamente nelle loro stringhe user agent. I servizi di confronto prezzi, i crawler di ricerca accademica, i checker di accessibilità e i validatori di link si annunciano tutti con la loro vera identità. Questi bot possono o non possono essere benvenuti su qualsiasi sito dato, ma almeno l'operatore del sito può prendere una decisione consapevole su se consentirli. Il problema è specificamente con gli impostori, i bot che mentono su chi sono per ottenere accesso che altrimenti non riceverebbero.
Costruire una Difesa Basata sulla Verifica dell'Identità
La difesa pratica contro la falsificazione di bot è semplice una volta che il meccanismo di verifica è in atto. Ogni richiesta in arrivo che sostiene di provenire da un crawler di motore di ricerca viene controllata rispetto all'infrastruttura nota del crawler. Le richieste che superano la verifica sono consentite con i privilegi che il sito concede a quel crawler. Le richieste che non superano la verifica vengono bloccate completamente o trattate come traffico generico soggetto ai limiti di velocità e ai controlli di accesso standard del sito.
Questo approccio è superiore all'analisi comportamentale per diversi motivi. L'analisi comportamentale tenta di determinare se un visitatore è un bot in base al modo in cui interagisce con il sito: velocità di richiesta, modelli di navigazione, esecuzione JavaScript, movimenti del mouse. Questi segnali sono rumorosi, generano falsi positivi e possono essere sconfitti da bot sufficientemente sofisticati che imitano il comportamento umano. La verifica basata su IP, al contrario, produce un risultato binario con zero falsi positivi. Una richiesta proviene dalla rete di Google o no. Non c'è ambiguità, nessuna soglia da sintonizzare e nessun modello comportamentale da addestrare.
L'implementazione non ha bisogno di essere sincrona con ogni richiesta per i siti in cui la latenza è un problema. La verifica può essere eseguita in modo asincrono, con risultati memorizzati nella cache per indirizzo IP. Una volta verificato che un IP appartiene a Googlebot, tutte le successive richieste da quell'IP possono essere consentite senza re-verifica per un periodo configurabile. Questo approccio aggiunge una latenza trascurabile alla pipeline delle richieste fornendo una protezione completa contro la falsificazione. Il periodo di memorizzazione nella cache riflette un compromesso: una memorizzazione nella cache più lunga significa meno chiamate API ma una finestra leggermente più ampia in cui un IP precedentemente verificato potrebbe teoricamente cambiare proprietà. In pratica, le allocazioni IP dei motori di ricerca sono estremamente stabili, e le durate della cache di ventiquattro ore o più sono sicure per la maggior parte delle applicazioni.
Il risultato dell'implementazione della verifica dell'identità basata su IP dei bot è una vista più pulita e più onesta di cosa sta effettivamente colpendo il server. I veri crawler sono benvenuti. I crawler falsi sono esposti e bloccati. I dati di analisi riflettono la realtà invece della finzione. Le risorse del server sono allocate ai veri visitatori e ai crawler legittimi invece di essere sprecate su impostori. La zoologia dei bot di internet è complessa e in continua evoluzione, ma il principio fondamentale della verifica per origine di rete rimane efficace indipendentemente da come l'ecosistema dei bot cambia.
Domande Frequenti
Come faccio a verificare se una richiesta proviene veramente da Googlebot?
Esegui una ricerca DNS inversa sull'indirizzo IP e conferma che il nome host termina con googlebot.com o google.com. Quindi esegui una ricerca DNS diretta su quel nome host e conferma che si risolve di nuovo allo stesso IP. In alternativa, controlla che l'IP appartenga a AS15169, che è il sistema autonomo di Google. L'API di rilevamento bot esegue tutti questi controlli in una singola chiamata.
Un bot può falsificare il suo indirizzo IP per apparire come Googlebot?
Gli indirizzi IP non possono essere falsificati per le connessioni TCP perché l'handshake TCP richiede una comunicazione bidirezionale. Un bot può falsificare una stringa user agent banalmente, ma non può stabilire una connessione TCP con un indirizzo IP di origine falsificato. Questo è il motivo per cui la verifica basata su IP è definitiva mentre l'identificazione basata su user agent non lo è.
Cos'è un ASN e perché è importante per il rilevamento dei bot?
Un ASN, o Autonomous System Number, identifica una rete gestita da una singola organizzazione. La rete di Google è AS15169, quella di Microsoft utilizza diversi ASN e OpenAI ha i propri intervalli designati. Controllare l'IP di un bot rispetto all'ASN previsto rivela immediatamente se la richiesta proviene dall'infrastruttura dell'organizzazione dichiarata o da un data center non correlato.
Devo bloccare tutti i bot che non superano la verifica?
Bloccare i bot che falsificano motori di ricerca specifici è generalmente sicuro e consigliato. Tuttavia, non tutti i bot non verificati sono malintenzionati. Alcuni sono strumenti legittimi che semplicemente non falsificano crawler. La distinzione chiave è tra i bot che mentono sulla loro identità, che dovrebbero essere bloccati, e i bot che si identificano onestamente, che possono essere valutati individualmente.
Quanto è comune la falsificazione di bot su siti web tipici?
La prevalenza varia in base alle dimensioni del sito e al tipo di contenuto. I siti con alta autorità di dominio, contenuti di valore o un gran numero di pagine tendono ad attirare più crawler falsi. I dati del settore suggeriscono che il traffico di bot rappresenta dal trenta al cinquanta per cento di tutto il traffico web globale, e una parte significativa di ciò è traffico di falsificazione che sostiene di provenire da crawler di motori di ricerca legittimi.
Il blocco di bot falsi influisce sull'indicizzazione del motore di ricerca reale?
No. Il blocco basato sulla verifica influisce solo sulle richieste da indirizzi IP che non appartengono al motore di ricerca dichiarato. Il vero Googlebot, Bingbot e altri crawler legittimi superano la verifica e continuano ad accedere al sito normalmente. L'unico impatto è sugli impostori.