A internet tem um problema de fauna. Sob a superfície da atividade de navegação humana existe um ecossistema inteiro de programas automatizados rastreando, raspando, sondando e solicitando páginas da web em escala enorme. Alguns desses bots são benéficos. O rastreador do Google indexa páginas para que apareçam nos resultados de pesquisa. O rastreador do Bing faz o mesmo para o mecanismo de pesquisa da Microsoft. O rastreador do OpenAI coleta dados de treinamento para modelos de linguagem. Esses rastreadores legítimos se identificam honestamente, seguem as regras especificadas em arquivos robots.txt e operam a partir de infraestrutura conhecida. Mas para cada rastreador legítimo, existem dezenas de impostores usando o mesmo crachá enquanto fazem algo completamente diferente. Eles se anunciam como Googlebot em sua string de user agent, afirmam estar indexando páginas para pesquisa e contam com o fato de que a maioria dos servidores web lhes concederá tratamento preferencial com base nessa identidade reivindicada. A zoologia desses bots da internet é tão complexa, competitiva e ocasionalmente bizarra quanto qualquer ecossistema biológico.
Entender esse ecossistema é importante para qualquer pessoa que opera um site, porque a decisão de confiar ou bloquear um bot tem consequências diretas. Bloquear um rastreador de mecanismo de pesquisa real significa que as páginas param de aparecer nos resultados de pesquisa. Confiar em um falso significa permitir que um raspador, uma ferramenta de inteligência competitiva ou um ator malicioso consuma recursos do servidor enquanto finge fornecer valor. A capacidade de distinguir entre rastreadores reais e falsos não é um exercício teórico de segurança. É uma necessidade prática que afeta custos de largura de banda, desempenho do servidor, precisão da análise e proteção de conteúdo. A API de detecção de bots existe precisamente para esse propósito, fornecendo verificação definitiva da identidade do rastreador com base na única coisa que não pode ser falsificada: a infraestrutura de rede a partir da qual o bot se conecta.
As Espécies de Googlebot Falso
Googlebot é o rastreador mais imitado da internet, e as razões são óbvias. Os sites rotineiramente concedem a Googlebot privilégios especiais. Os limites de taxa são relaxados. Os paywalls são removidos. O conteúdo que fica oculto atrás da renderização JavaScript é pré-renderizado especificamente para o rastreador do Google. As regras do robots.txt frequentemente permitem explicitamente que Googlebot acesse seções que são restritas para outros rastreadores. Ao afirmar ser Googlebot, um rastreador falso herda todos esses privilégios sem ganhá-los. O site serve seu melhor conteúdo, respostas mais rápidas e páginas mais completas para o que acredita ser infraestrutura de indexação do Google, quando na verdade o receptor é um raspador operando de um servidor alugado em um data center.
O Googlebot real é identificável com certeza absoluta. Ele opera exclusivamente de endereços IP dentro do sistema autônomo do Google, AS15169. Uma pesquisa reversa de DNS em qualquer endereço IP do Googlebot real retorna um nome de host terminado em googlebot.com ou google.com. Uma pesquisa de DNS direto nesse nome de host é resolvida de volta para o endereço IP original. Essa cadeia de verificação de três etapas, IP para nome de host para IP, está criptograficamente vinculada à infraestrutura DNS do Google e não pode ser falsificada sem comprometer os servidores DNS do Google, o que é efetivamente impossível. O detector de bots do Google executa essa cadeia de verificação exata e retorna um resultado definitivo.
O Googlebot falso, por outro lado, origina-se da infraestrutura em nuvem de uso geral que qualquer pessoa pode alugar por hora. Amazon Web Services, Google Cloud Platform (ironicamente), Microsoft Azure, DigitalOcean, Hetzner, OVH e Contabo são origens comuns. A string de user agent é copiada literalmente do Googlebot real, frequentemente incluindo o número da versão e o formato da URL de rastreamento. Alguns falsificadores sofisticados até imitam os padrões de solicitação do Googlebot, espaçando suas solicitações e seguindo links em um padrão que se assemelha ao rastreamento legítimo. Mas o endereço IP os denuncia a cada vez. Nenhuma quantidade de mimetismo comportamental pode mudar o fato de que a solicitação origina-se de AS16509 (Amazon) em vez de AS15169 (Google).
Bingbot e Seus Impostores
O Bingbot da Microsoft é o segundo rastreador mais comumente imitado, e sua verificação segue um padrão semelhante ao Googlebot, mas com algumas diferenças importantes. O Bingbot real opera a partir da infraestrutura da Microsoft, e seus endereços IP são resolvidos via DNS reverso para nomes de host no domínio search.msn.com. A verificação do ASN verifica contra os sistemas autônomos da Microsoft, que incluem vários ASNs devido à extensa infraestrutura de rede da empresa. A verificação é igualmente confiável, mas requer conhecimento sobre a alocação de IP mais ampla da Microsoft em comparação com a gama mais consolidada do Google.
O Bingbot falso serve aos mesmos propósitos que o Googlebot falso, mas aparece em volumes significativamente menores, refletindo a participação de mercado menor do Bing e o incentivo correspondentemente menor para imitá-lo. No entanto, os sites que otimizam especificamente para Bing ou que servem conteúdo diferente ao Bingbot atraem imitação desproporcional. Ferramentas de SEO que analisam como uma página aparece no rastreador do Bing frequentemente usam agentes de usuário falsos de Bingbot para recuperar a versão específica do Bing das páginas. Serviços de inteligência competitiva fazem o mesmo para ver qual conteúdo os concorrentes estão servindo especificamente à infraestrutura de pesquisa da Microsoft.
A metodologia de detecção é idêntica em princípio. Verifique o endereço IP contra intervalos conhecidos da Microsoft. Execute a verificação de DNS reverso e direto. Confirme se o ASN corresponde. Uma solicitação que afirma ser Bingbot e que origina de um servidor Hetzner na Finlândia é falsa com certeza absoluta, independentemente de quão convincentemente a string de user agent é elaborada. A API de detecção de bots lida com essa verificação automaticamente, verificando a identidade reivindicada contra a origem de rede real e retornando um veredicto claro.
O Rastreador ChatGPT e a Nova Onda de Bots de IA
O surgimento de modelos de linguagem grandes criou uma categoria inteiramente nova de rastreadores da web e uma categoria inteiramente nova de imitação. O GPTBot do OpenAI rastreia a web para coletar dados de treinamento, e sua presença se tornou um dos tópicos mais contenciosos na publicação web. Muitos editores querem bloquear o GPTBot para evitar que seu conteúdo seja usado para treinamento de IA. Outros querem permitir, esperando tratamento favorável nas respostas do ChatGPT. De qualquer forma, a capacidade de distinguir GPTBot real de versões falsas é crítica para implementar seja qual for a política que o editor tenha escolhido.
O GPTBot real, como o Googlebot real, opera a partir de um conjunto específico de endereços IP associados à infraestrutura do OpenAI. A string de user agent se identifica claramente, e os intervalos de IP são publicados e verificáveis. O GPTBot falso, que proliferou rapidamente desde o lançamento do ChatGPT, usa a mesma string de user agent mas se conecta de infraestrutura não relacionada. As motivações para imitar GPTBot são variadas. Alguns raspadores o usam porque editores que decidiram permitir rastreadores de treinamento de IA servirão conteúdo livremente para qualquer coisa que se afirme ser GPTBot. Outros o usam como uma identidade de cobertura genérica, apostando na suposição de que administradores de servidor estão menos familiarizados com intervalos de IP do OpenAI do que com os do Google e, portanto, menos propensos a verificar a reivindicação. O detector de rastreador OpenAI aborda isso diretamente, verificando se uma solicitação de GPTBot reivindicada realmente origina-se da rede do OpenAI.
Além do GPTBot, o cenário de rastreadores de IA está se expandindo rapidamente. Anthropic, Perplexity, Meta e numerosas empresas menores de IA operam rastreadores da web com vários graus de transparência sobre suas atividades. Cada um desses rastreadores pode ser imitado, e cada imitação carrega suas próprias implicações dependendo de como o site de destino trata esse rastreador particular. Um site que bloqueia todos os rastreadores de IA, exceto GPTBot, por exemplo, cria um forte incentivo para raspadores imitarem especificamente o GPTBot, porque é a única identidade que será servida com conteúdo sem restrição.
Os Menores Atores e a Cauda Longa da Imitação de Bots
O ecossistema de bots se estende muito além do Google, Bing e OpenAI. O Yandex opera um rastreador significativo para a web em língua russa, e bots falsos do Yandex são comuns em sites com conteúdo em língua russa ou que servem conteúdo diferente especificamente ao Yandex. O rastreador do DuckDuckGo, DuckDuckBot, é imitado apesar da participação de mercado relativamente pequena do DuckDuckGo, porque sites que atendem usuários conscientes de privacidade frequentemente concedem acesso preferencial ao DuckDuckBot. Qwant, o mecanismo de pesquisa francês, e Seznam, o mecanismo de pesquisa tcheco, têm rastreadores que são imitados em seus respectivos mercados regionais.
A metodologia de verificação funciona de forma idêntica para todos eles. Cada rastreador legítimo opera a partir de um conjunto conhecido de endereços IP associados à infraestrutura de rede de seu operador. O ASN identifica a rede. O DNS reverso confirma o nome de host. O DNS direto confirma o IP. Essa cadeia de verificação é universal e se aplica independentemente do rastreador específico sendo verificado. A diferença está apenas nos dados de referência: quais ASNs, quais padrões de nome de host e quais intervalos de IP pertencem a cada rastreador. A API de detecção de bots mantém esses conjuntos de dados de referência para oito rastreadores principais e fornece a verificação como uma única chamada de API.
A cauda longa do ecossistema de bots também inclui rastreadores que não imitam ninguém. Estes são os bots honestos. Ferramentas de SEO como Ahrefs, SEMrush e Moz operam rastreadores que se identificam com precisão em suas strings de user agent. Serviços de comparação de preços, rastreadores de pesquisa acadêmica, verificadores de acessibilidade e validadores de links todos anunciam sua verdadeira identidade. Esses bots podem ou não ser bem-vindos em qualquer site, mas pelo menos o operador do site pode tomar uma decisão informada sobre se deve permitir-lhes. O problema está especificamente com os impostores, os bots que mentem sobre quem são para obter acesso que não receberiam de outra forma.
Construindo uma Defesa com Base na Verificação de Identidade
A defesa prática contra imitação de bots é simples uma vez que o mecanismo de verificação está em vigor. Cada solicitação recebida que se afirma ser de um rastreador de mecanismo de pesquisa é verificada contra a infraestrutura conhecida do rastreador. Solicitações que passam na verificação são permitidas com quaisquer privilégios que o site conceda a esse rastreador. Solicitações que falham na verificação são bloqueadas completamente ou tratadas como tráfego genérico sujeito às limitações de taxa padrão do site e controles de acesso.
Essa abordagem é superior à análise comportamental por várias razões. A análise comportamental tenta determinar se um visitante é um bot com base em como ele interage com o site: taxa de solicitação, padrões de navegação, execução de JavaScript, movimentos do mouse. Esses sinais são ruidosos, geram falsos positivos e podem ser derrotados por bots suficientemente sofisticados que imitam o comportamento humano. A verificação baseada em IP, por outro lado, produz um resultado binário com zero falsos positivos. Uma solicitação vem da rede do Google ou não. Não há ambiguidade, nenhum limite para ajustar e nenhum modelo comportamental para treinar.
A implementação não precisa ser síncrona com cada solicitação para sites onde a latência é uma preocupação. A verificação pode ser executada de forma assíncrona, com resultados armazenados em cache por endereço IP. Uma vez que um IP é verificado como pertencente ao Googlebot, todas as solicitações subsequentes desse IP podem ser permitidas sem re-verificação por um período configurável. Essa abordagem adiciona latência negligenciável ao pipeline de solicitação enquanto fornece proteção abrangente contra imitação. O período de cache reflete um compromisso: cache mais longo significa menos chamadas de API, mas uma janela ligeiramente maior onde um IP previamente verificado pode teoricamente mudar de propriedade. Na prática, alocações de IP de mecanismos de pesquisa são extremamente estáveis, e durações de cache de vinte e quatro horas ou mais são seguras para a maioria dos aplicativos.
O resultado da implementação de verificação de identidade de bot baseada em rede é uma visão mais limpa e honesta do que está realmente atingindo o servidor. Rastreadores reais são bem-vindos. Rastreadores falsos são expostos e bloqueados. Dados de análise refletem a realidade em vez de ficção. Recursos do servidor são alocados para visitantes reais e rastreadores legítimos em vez de serem desperdiçados em impostores. A zoologia dos bots da internet é complexa e em constante evolução, mas o princípio fundamental de verificação pela origem de rede permanece eficaz independentemente de como o ecossistema de bots muda.
Perguntas Frequentes
Como verifico se uma solicitação é realmente de Googlebot?
Execute uma pesquisa reversa de DNS no endereço IP e confirme se o nome de host termina em googlebot.com ou google.com. Em seguida, faça uma pesquisa de DNS direto nesse nome de host e confirme se ele é resolvido de volta para o mesmo IP. Alternativamente, verifique se o IP pertence a AS15169, que é o sistema autônomo do Google. A API de detecção de bots executa todas essas verificações em uma única chamada.
Um bot pode falsificar seu endereço IP para parecer Googlebot?
Os endereços IP não podem ser falsificados para conexões TCP porque o handshake TCP requer comunicação bidirecional. Um bot pode falsificar uma string de user agent trivialmente, mas não pode estabelecer uma conexão TCP com um endereço IP de origem forjado. É por isso que a verificação baseada em IP é definitiva, enquanto a identificação baseada em user agent não é.
O que é um ASN e por que é importante para detecção de bots?
Um ASN, ou Número de Sistema Autônomo, identifica uma rede operada por uma única organização. A rede do Google é AS15169, a Microsoft usa vários ASNs e o OpenAI tem seus próprios intervalos designados. Verificar o IP de um bot contra o ASN esperado revela imediatamente se a solicitação vem da infraestrutura da organização reivindicada ou de um data center não relacionado.
Devo bloquear todos os bots que falham na verificação?
Bloquear bots que imitam mecanismos de pesquisa específicos é geralmente seguro e recomendado. No entanto, nem todos os bots não verificados são maliciosos. Alguns são ferramentas legítimas que simplesmente não imitam rastreadores. A distinção-chave está entre bots que mentem sobre sua identidade, que devem ser bloqueados, e bots que se identificam honestamente, que podem ser avaliados individualmente.
Com que frequência a imitação de bots ocorre em sites típicos?
A prevalência varia de acordo com o tamanho do site e o tipo de conteúdo. Sites com alta autoridade de domínio, conteúdo valioso ou grande número de páginas tendem a atrair mais rastreadores falsos. Dados da indústria sugerem que o tráfego de bots representa trinta a cinquenta por cento de todo o tráfego da web globalmente, e uma parcela significativa disso é tráfego de imitação que se afirma ser rastreadores legítimos de mecanismo de pesquisa.
Bloquear bots falsos afeta a indexação real do mecanismo de pesquisa?
Não. O bloqueio baseado em verificação afeta apenas solicitações de endereços IP que não pertencem ao mecanismo de pesquisa reivindicado. O Googlebot real, Bingbot e outros rastreadores legítimos passam na verificação e continuam acessando o site normalmente. O único impacto é nos impostores.