Internet tiene un problema de fauna. Bajo la superficie de la actividad de navegación humana existe un ecosistema completo de programas automatizados que rastrean, extraen, sondean y solicitan páginas web a escala enorme. Algunos de estos bots son beneficiosos. El rastreador de Google indexa páginas para que aparezcan en los resultados de búsqueda. El rastreador de Bing hace lo mismo para el motor de búsqueda de Microsoft. El rastreador de OpenAI recopila datos de entrenamiento para modelos de lenguaje. Estos rastreadores legítimos se identifican honestamente, siguen las reglas especificadas en archivos robots.txt y operan desde infraestructura conocida. Pero por cada rastreador legítimo, hay docenas de impostores que usan el mismo carné de identidad mientras hacen algo completamente diferente. Se anuncian como Googlebot en su cadena de agente de usuario, afirman estar indexando páginas para búsqueda, y confían en que la mayoría de servidores web les otorgará trato preferencial basado en esa identidad reclamada. La zoología de estos bots de Internet es tan compleja, competitiva y ocasionalmente extraña como cualquier ecosistema biológico.
Entender este ecosistema es importante para cualquiera que opere un sitio web, porque la decisión de confiar o bloquear un bot tiene consecuencias directas. Bloquear un rastreador real de motor de búsqueda significa que las páginas dejan de aparecer en resultados de búsqueda. Confiar en uno falso significa permitir que un scraper, una herramienta de inteligencia competitiva, o un actor malicioso consuma recursos del servidor mientras finge proporcionar valor. La capacidad de distinguir entre rastreadores reales y falsos no es un ejercicio teórico de seguridad. Es una necesidad práctica que afecta costos de ancho de banda, rendimiento del servidor, precisión de análisis y protección de contenido. La API de detección de bots existe precisamente para este propósito, proporcionando verificación definitiva de identidad de rastreador basada en lo único que no puede ser falsificado: la infraestructura de red desde la que se conecta el bot.
Las Especies de Googlebot Falso
Googlebot es el rastreador más suplantado en Internet, y las razones son obvias. Los sitios web otorgan rutinariamente a Googlebot privilegios especiales. Los límites de velocidad se relajan. Se eliminan muros de pago. El contenido que está oculto detrás de renderizado JavaScript se renderiza previamente específicamente para el rastreador de Google. Las reglas de robots.txt a menudo permiten explícitamente a Googlebot acceso a secciones que están restringidas para otros rastreadores. Al afirmar ser Googlebot, un rastreador falso hereda todos estos privilegios sin ganarlos. El sitio web sirve su mejor contenido, respuestas más rápidas y páginas más completas a lo que cree es la infraestructura de indexación de Google, cuando en realidad el destinatario es un scraper operando desde un servidor alquilado en un centro de datos.
El Googlebot real es identificable con certeza absoluta. Opera exclusivamente desde direcciones IP dentro del sistema autónomo de Google, AS15169. Una búsqueda DNS inversa en cualquier dirección IP de Googlebot real devuelve un nombre de host que termina en googlebot.com o google.com. Una búsqueda DNS directa en ese nombre de host se resuelve nuevamente a la dirección IP original. Esta cadena de verificación de tres pasos, IP a nombre de host a IP, está criptográficamente vinculada a la infraestructura DNS de Google y no puede ser falsificada sin comprometer los servidores DNS de Google, lo que es efectivamente imposible. El detector de bots de Google realiza esta cadena de verificación exacta y devuelve un resultado definitivo.
El Googlebot falso, por el contrario, se origina desde la infraestructura de nube de propósito general que cualquiera puede alquilar por hora. Amazon Web Services, Google Cloud Platform (irónicamente), Microsoft Azure, DigitalOcean, Hetzner, OVH y Contabo son orígenes comunes. La cadena del agente de usuario se copia textualmente de Googlebot real, a menudo incluyendo el número de versión y el formato de URL de rastreo. Algunos falsificadores sofisticados incluso imitan patrones de solicitud de Googlebot, espaciando sus solicitudes y siguiendo enlaces en un patrón que se asemeja al rastreo legítimo. Pero la dirección IP los delata cada vez. Ninguna cantidad de mimetismo de comportamiento puede cambiar el hecho de que la solicitud se origina desde AS16509 (Amazon) en lugar de AS15169 (Google).
Bingbot y Sus Impostores
Bingbot de Microsoft es el segundo rastreador más comúnmente suplantado, y su verificación sigue un patrón similar a Googlebot pero con algunas diferencias importantes. El Bingbot real opera desde infraestructura de Microsoft, y sus direcciones IP se resuelven a través de DNS inverso a nombres de host dentro del dominio search.msn.com. La verificación de ASN verifica contra los sistemas autónomos de Microsoft, que incluyen varios ASN debido a la amplia infraestructura de red de la empresa. La verificación es igualmente confiable pero requiere conocimiento de la asignación de IP más amplia de Microsoft en comparación con el rango más consolidado de Google.
El Bingbot falso sirve muchos de los mismos propósitos que el Googlebot falso pero aparece en volúmenes algo menores, reflejando la cuota de mercado más pequeña de Bing y el incentivo correspondientemente menor para suplantarlo. Sin embargo, los sitios web que se optimizan específicamente para Bing o que sirven contenido diferente a Bingbot atraen suplantación desproporcionada. Las herramientas de SEO que analizan cómo aparece una página en el rastreador de Bing a menudo usan agentes de usuario de Bingbot falsos para recuperar la versión específica de Bing de las páginas. Los servicios de inteligencia competitiva hacen lo mismo para ver qué contenido sirven los competidores específicamente a la infraestructura de búsqueda de Microsoft.
La metodología de detección es idéntica en principio. Verificar la dirección IP contra rangos conocidos de Microsoft. Realizar la verificación de DNS directa e inversa. Confirmar que el ASN coincide. Una solicitud que afirma ser Bingbot que se origina desde un servidor Hetzner en Finlandia es falsa con certeza absoluta, independientemente de cuán convincentemente se elabore la cadena del agente de usuario. La API de detección de bots maneja esta verificación automáticamente, verificando la identidad reclamada contra el origen de red real y devolviendo un veredicto claro.
El Rastreador ChatGPT y la Nueva Ola de Bots de IA
El surgimiento de modelos de lenguaje grande ha creado una categoría completamente nueva de rastreadores web y una categoría completamente nueva de suplantación. GPTBot de OpenAI rastrea la web para recopilar datos de entrenamiento, y su presencia se ha convertido en uno de los temas más contenciosos en la publicación web. Muchos editores quieren bloquear GPTBot para evitar que su contenido sea utilizado para entrenamiento de IA. Otros quieren permitirlo, esperando un trato favorable en las respuestas de ChatGPT. De cualquier manera, la capacidad de distinguir GPTBot real de versiones falsas es crítica para hacer cumplir cualquier política que haya elegido el editor.
El GPTBot real, como el Googlebot real, opera desde un conjunto específico de direcciones IP asociadas con la infraestructura de OpenAI. La cadena del agente de usuario se identifica claramente, y los rangos de IP se publican y son verificables. El GPTBot falso, que se ha proliferado rápidamente desde el lanzamiento de ChatGPT, usa la misma cadena de agente de usuario pero se conecta desde infraestructura no relacionada. Las motivaciones para suplantar GPTBot son variadas. Algunos scrapers lo usan porque los editores que han decidido permitir rastreadores de entrenamiento de IA servirán contenido libremente a cualquier cosa que afirme ser GPTBot. Otros lo usan como una identidad de cobertura genérica, apostando por la suposición de que los administradores de servidor están menos familiarizados con los rangos de IP de OpenAI que con los de Google y, por lo tanto, menos propensos a verificar la afirmación. El detector de rastreador OpenAI aborda esto directamente, verificando si una solicitud de GPTBot reclamada realmente se origina desde la red de OpenAI.
Más allá de GPTBot, el panorama de rastreadores de IA se está expandiendo rápidamente. Anthropic, Perplexity, Meta y numerosas empresas de IA más pequeñas operan rastreadores web con grados de transparencia variables sobre sus actividades. Cada uno de estos rastreadores puede ser suplantado, y cada suplantación tiene sus propias implicaciones dependiendo de cómo el sitio de destino trata ese rastreador en particular. Un sitio que bloquea todos los rastreadores de IA excepto GPTBot, por ejemplo, crea un fuerte incentivo para que los scrapers suplanten GPTBot específicamente, porque es la única identidad que será servida sin restricciones.
Los Jugadores Más Pequeños y la Cola Larga de Suplantación de Bots
El ecosistema de bots se extiende mucho más allá de Google, Bing y OpenAI. Yandex opera un rastreador significativo para la web en ruso, y los bots falsos de Yandex son comunes en sitios con contenido en ruso o que sirven contenido diferente a Yandex. El rastreador de DuckDuckGo, DuckDuckBot, es suplantado a pesar de la cuota de mercado relativamente pequeña de DuckDuckGo, porque los sitios que atienden a usuarios conscientes de la privacidad a menudo otorgan acceso preferencial a DuckDuckBot. Qwant, el motor de búsqueda francés, y Seznam, el motor de búsqueda checo, ambos tienen rastreadores que son suplantados en sus respectivos mercados regionales.
La metodología de verificación funciona de manera idéntica para todos ellos. Cada rastreador legítimo opera desde un conjunto conocido de direcciones IP asociadas con la infraestructura de red de su operador. El ASN identifica la red. El DNS inverso confirma el nombre de host. El DNS directo confirma la IP. Esta cadena de verificación es universal y se aplica independientemente del rastreador específico que se está verificando. La diferencia está solo en los datos de referencia: qué ASN, qué patrones de nombre de host y qué rangos de IP pertenecen a cada rastreador. La API de detección de bots mantiene estos conjuntos de datos de referencia para ocho rastreadores principales y proporciona la verificación como una única llamada de API.
La cola larga del ecosistema de bots también incluye rastreadores que no suplantan a nadie. Estos son los bots honestos. Las herramientas de SEO como Ahrefs, SEMrush y Moz operan rastreadores que se identifican con precisión en sus cadenas de agente de usuario. Los servicios de comparación de precios, los rastreadores de investigación académica, los verificadores de accesibilidad y los validadores de enlaces todos anuncian su verdadera identidad. Estos bots pueden o no ser bienvenidos en cualquier sitio dado, pero al menos el operador del sitio puede tomar una decisión informada sobre si permitirlos. El problema es específicamente con los impostores, los bots que mienten sobre quiénes son para obtener acceso que de otro modo no recibirían.
Construyendo una Defensa Basada en Verificación de Identidad
La defensa práctica contra la suplantación de bots es sencilla una vez que el mecanismo de verificación está en lugar. Cada solicitud entrante que afirma ser de un rastreador de motor de búsqueda se verifica contra la infraestructura conocida del rastreador. Las solicitudes que pasan la verificación se permiten con los privilegios que el sitio otorga a ese rastreador. Las solicitudes que fallan la verificación se bloquean directamente o se tratan como tráfico genérico sujeto a los controles de limitación de velocidad y acceso estándar del sitio.
Este enfoque es superior al análisis de comportamiento por varias razones. El análisis de comportamiento intenta determinar si un visitante es un bot basándose en cómo interactúa con el sitio: velocidad de solicitud, patrones de navegación, ejecución de JavaScript, movimientos del ratón. Estas señales son ruidosas, generan falsos positivos y pueden ser derrotadas por bots suficientemente sofisticados que imitan comportamiento humano. La verificación basada en IP, por el contrario, produce un resultado binario con cero falsos positivos. Una solicitud proviene de la red de Google o no la proviene. No hay ambigüedad, sin umbral para ajustar y sin modelo de comportamiento para entrenar.
La implementación no necesita ser síncrona con cada solicitud para sitios donde la latencia es una preocupación. La verificación puede ejecutarse de forma asíncrona, con resultados almacenados en caché por dirección IP. Una vez que una IP se verifica como perteneciente a Googlebot, todas las solicitudes posteriores desde esa IP pueden permitirse sin verificación nuevamente durante un período configurable. Este enfoque agrega latencia negligible a la canalización de solicitud mientras proporciona protección integral contra suplantación. El período de caché refleja un compromiso: el almacenamiento en caché más largo significa menos llamadas de API pero una ventana ligeramente más grande donde una IP previamente verificada podría cambiar de propiedad teóricamente. En la práctica, las asignaciones de IP del motor de búsqueda son extremadamente estables, y duraciones de caché de veinticuatro horas o más son seguras para la mayoría de aplicaciones.
El resultado de implementar verificación de bots basada en identidad es una vista más limpia y más honesta de lo que realmente está golpeando el servidor. Los rastreadores reales son bienvenidos. Los rastreadores falsos se exponen y se bloquean. Los datos de análisis reflejan la realidad en lugar de ficción. Los recursos del servidor se asignan a visitantes reales y rastreadores legítimos en lugar de ser desperdiciados en impostores. La zoología de los bots de Internet es compleja y está en constante evolución, pero el principio fundamental de verificación por origen de red sigue siendo efectivo independientemente de cómo cambie el ecosistema de bots.
Preguntas Frecuentes
¿Cómo verifico si una solicitud es realmente de Googlebot?
Realiza una búsqueda DNS inversa en la dirección IP y confirma que el nombre de host termina en googlebot.com o google.com. Luego realiza una búsqueda DNS directa en ese nombre de host y confirma que se resuelve nuevamente a la misma IP. Alternativamente, verifica que la IP pertenece a AS15169, que es el sistema autónomo de Google. La API de detección de bots realiza todas estas comprobaciones en una única llamada.
¿Puede un bot falsificar su dirección IP para parecer Googlebot?
Las direcciones IP no pueden ser falsificadas para conexiones TCP porque el protocolo de enlace TCP requiere comunicación bidireccional. Un bot puede falsificar una cadena de agente de usuario trivialmente, pero no puede establecer una conexión TCP con una dirección IP de origen falsificada. Es por eso que la verificación basada en IP es definitiva mientras que la identificación basada en agente de usuario no lo es.
¿Qué es un ASN y por qué es importante para la detección de bots?
Un ASN, o Número de Sistema Autónomo, identifica una red operada por una única organización. La red de Google es AS15169, Microsoft usa varios ASN, y OpenAI tiene sus propios rangos designados. Verificar la IP de un bot contra el ASN esperado revela inmediatamente si la solicitud proviene de la infraestructura de la organización reclamada o de un centro de datos no relacionado.
¿Debo bloquear todos los bots que fallan la verificación?
Bloquear bots que suplantan motores de búsqueda específicos es generalmente seguro y recomendado. Sin embargo, no todos los bots no verificados son maliciosos. Algunos son herramientas legítimas que simplemente no suplantan rastreadores. La distinción clave es entre bots que mienten sobre su identidad, que deben bloquearse, y bots que se identifican honestamente, que pueden evaluarse individualmente.
¿Qué tan común es la suplantación de bots en sitios web típicos?
La prevalencia varía según el tamaño del sitio y el tipo de contenido. Los sitios con autoridad de dominio alta, contenido valioso o números de página grandes tienden a atraer más rastreadores falsos. Los datos de la industria sugieren que el tráfico de bots representa entre el treinta y el cincuenta por ciento de todo el tráfico web a nivel mundial, y una parte significativa de ese tráfico es de suplantación que afirma ser rastreadores legítimos de motores de búsqueda.
¿Afecta el bloqueo de bots falsos la indexación de motores de búsqueda reales?
No. El bloqueo basado en verificación solo afecta solicitudes desde direcciones IP que no pertenecen al motor de búsqueda reclamado. El Googlebot real, Bingbot y otros rastreadores legítimos pasan la verificación y continúan accediendo al sitio normalmente. El único impacto es en los impostores.