Falošný GoogleBot, Falošný Crawler ChatGPT, Falošný Bing a Zoológia Internetových Botov

Internet má problém so zvieratami. Pod povrchom ľudskej aktivity prehliadania existuje celý ekosystém automatizovaných programov, ktoré crawlujú, skrapujú, preskúmavajú a požadujú webové stránky v obrovskom meradle. Niektoré z týchto botov sú užitočné. Crawler spoločnosti Google indexuje stránky tak, aby sa objavili vo výsledkoch vyhľadávania. Crawler spoločnosti Bing to isté robí pre vyhľadávač spoločnosti Microsoft. Crawler spoločnosti OpenAI zbiera tréningovité údaje pre jazykové modely. Tieto legitímne crawlery sa čestne identifikujú, dodržiavajú pravidlá špecifikované v súboroch robots.txt a fungujú z poznanej infraštruktúry. Ale na každý legitímny crawler existujú desiatky podvodníkov, ktorí nosia rovnakú identifikačnú kartu a robia niečo úplne iné. Hlásajú sa ako Googlebot v reťazci svojho user-agenta, tvrdia, že indexujú stránky na vyhľadávanie, a spoliehajú sa na to, že väčšina webových serverov im udelí preferenčnú podporu na základe tejto tvrdenej identity. Zoológia týchto internetových botov je tak zložitá, konkurenčná a občas bizarná ako akýkoľvek biologický ekosystém.

Pochopenie tohto ekosystému je dôležité pre kohokoľvek, kto prevádzkuje webovú stránku, pretože rozhodnutie o tom, či botovi dôverovať alebo ho blokovať, má priame dôsledky. Blokovanie skutočného vyhľadávacieho crawleru znamená, že sa stránky prestanú objavovať vo výsledkoch vyhľadávania. Dôvera falošnému znamená povolenie skrapovača, nástroja na zbieranie konkurenčných informácií alebo škodlivého aktéra, aby konzumoval serverové zdroje, pričom sa tvári, že poskytuje hodnotu. Schopnosť rozlíšiť medzi skutočnými a falošnými crawlermi nie je teoretické cvičenie v oblasti bezpečnosti. Je to praktická nevyhnutnosť, ktorá ovplyvňuje náklady na šírku pásma, výkon servera, presnosť analýzy a ochranu obsahu. API detekcie botov existuje presne na tento účel, poskytujúc definitívne overenie identity crawleru na základe jedinej veci, ktorú nemožno falšovať: sieťová infraštruktúra, z ktorej sa bot pripája.

Druhy Falošného Googlebota

Googlebot je najčastejšie napodobňovaný crawler na internete a dôvody sú zrejmé. Webové stránky rutinne poskytujú Googlebot špeciálne výhody. Limity sadzby sa uvoľňujú. Paywally sa odstraňujú. Obsah, ktorý je ukrytý za vykreslovaním JavaScriptu, sa vopred vykresľuje špecificky pre crawler spoločnosti Google. Pravidlá Robots.txt často výslovne umožňujú Googlebot prístup k sekciám, ktoré sú obmedzené pre iných crawlery. Tvrdiaci sa Googlebot zdedí všetky tieto výhody bez toho, aby si ich zaslúžil. Webová stránka ponúka svoj najlepší obsah, najrýchlejšie odpovede a úplné stránky tomu, čo sa zdá byť indexovacou infraštruktúrou spoločnosti Google, keď v skutočnosti je príjemcom skrapovač fungujúci z prenajatého servera v dátovom centre.

Skutočný Googlebot je identifikovateľný s absolútnou istotou. Funguje výlučne z IP adries v autonómnom systéme spoločnosti Google AS15169. Spätné vyhľadávanie DNS na akejkoľvek skutočnej IP adrese Googlebota vracia názov hostiteľa končiaci sa na googlebot.com alebo google.com. Forwardové vyhľadávanie DNS na tomto názve hostiteľa sa rozlišuje späť na pôvodnú IP adresu. Tento reťazec overenia v troch krokoch, IP na hostname na IP, je kryptograficky viazaný na infraštruktúru DNS spoločnosti Google a nemôže byť falšovaný bez kompromitácie DNS serverov spoločnosti Google, čo je prakticky nemožné. Detektor Googlebota vykonáva presne tento reťazec overenia a vracia definitívny výsledok.

Falošný Googlebot naopak pochádza z infraštruktúry na všeobecné účely, ktorú si môže každý prenajať za hodinu. Amazon Web Services, Google Cloud Platform (ironicky), Microsoft Azure, DigitalOcean, Hetzner, OVH a Contabo sú bežné pôvody. Reťazec user-agenta sa kopíruje doslova zo skutočného Googlebota, často vrátane čísla verzie a formátu URL crawlingu. Niektoré sofistikovanejšie falošné údaje dokonca napodobňujú požiadavky Googlebota, rozmiestňujú svoje požiadavky a sledujú odkazy vzorcom, ktorý sa podobá legitímneho crawlingu. Ale IP adresa ich zaradie zakaždým. Žiadne množstvo behaviorálneho napodobňovania nemôže zmeniť fakt, že požiadavka pochádza z AS16509 (Amazon) namiesto AS15169 (Google).

Bingbot a Jeho Napodobovatelia

Bingbot spoločnosti Microsoft je druhý najčastejšie napodobňovaný crawler a jeho overenie nasleduje podobný vzor ako Googlebot, ale s niektorými dôležitými rozdielmi. Skutočný Bingbot funguje z infraštruktúry spoločnosti Microsoft a jeho IP adresy sa rozlišujú cez spätné DNS na mená hostiteľov v doméne search.msn.com. Overenie ASN sa kontroluje voči autonómnym systémom spoločnosti Microsoft, ktoré zahŕňajú niekoľko ASN kvôli rozsiahlej sieťovej infraštruktúre spoločnosti. Overenie je rovnako spoľahlivé, ale vyžaduje si vedomosť o širšom pridelení IP spoločnosti Microsoft v porovnaní s konsolidovanejším rozsahom spoločnosti Google.

Falošný Bingbot slúži mnohých rovnakým účelom ako falošný Googlebot, ale objavuje sa v nižších objemoch, čo odráža menší podiel Bingu na trhu a zodpovedajúco menší podnet na jeho napodobňovanie. Avšak webové stránky, ktoré sa špecificky optimalizujú pre Bing alebo ktoré slúžia iný obsah Bingbotu, priťahujú neúmerne veľké napodobňovanie. SEO nástroje, ktoré analyzujú, ako sa stránka objavuje v crawleri spoločnosti Bing, často používajú falošné user-agenty Bingbot na získanie verzie stránky špecifickej pre Bing. Služby zberania konkurenčných informácií robia to isté, aby videli, aký obsah konkurenti slúžia špecificky infraštruktúre vyhľadávania spoločnosti Microsoft.

Metodológia detekcie je v princípe rovnaká. Skontrolujte IP adresu voči známym rozsahom spoločnosti Microsoft. Vykonajte spätné a forwardové DNS overenie. Potvrďte, že sa ASN zhoduje. Požiadavka, ktorá sa hlási ako Bingbot a pochádza z Hetznerovho servera vo Fínsku, je s absolútnou istotou falošná, bez ohľadu na to, ako presvedčivo je reťazec user-agenta vyrobený. API detekcie botov zvláda toto overenie automaticky, kontroluje tvrdené identity voči skutočnému pôvodu siete a vracia jasný verdikt.

Crawler ChatGPT a Nová Vlna AI Botov

Vznik veľkých jazykových modelov vytvoril úplne novú kategóriu webových crawlerov a úplne novú kategóriu napodobňovania. GPTBot spoločnosti OpenAI crawluje web na zbieranie tréningovských údajov a jeho prítomnosť sa stala jednou z najzápaditejších tém vo webovom vydávaní. Mnohí vydávatelia chcú GPTBot blokovať, aby sa ich obsah nepoužíval na tréning AI. Iní ho chcú povolať, dúfajúc na priaznivé zaobchádzanie v reakciách ChatGPT. Ako je to aj tak, schopnosť rozlíšiť skutočný GPTBot od falošných verzií je kritická na presadzovanie akejkoľvek politiky, ktorú má vydavateľ zvolené.

Skutočný GPTBot, ako skutočný Googlebot, funguje zo špecifickej sady IP adries spojených s infraštruktúrou spoločnosti OpenAI. Reťazec user-agenta sa jasne identifikuje a rozsahy IP sú publikované a overiteľné. Falošný GPTBot, ktorý sa rýchlo množil od spustenia ChatGPT, používa rovnaký reťazec user-agenta, ale pripája sa z nesúvisiacej infraštruktúry. Motivácie na napodobňovanie GPTBot sú rôznorodé. Niektorí skrapovači ho používajú, pretože vydávatelia, ktorí sa rozhodli povoliť AI crawlery na tréning, budú bezplatne podávať obsah čomukoľvek, čo sa hlási ako GPTBot. Iní ho používajú ako generickú identitu pokrytia, čítajúc sa na predpoklad, že správcovia serverov sú menej oboznámení s rozsahmi IP OpenAI ako s rozsahmi spoločnosti Google, a preto sú menej pravdepodobní na overenie nároku. Detektor crawleru OpenAI sa to zaoberá priamo, overuje, či tvrdená požiadavka GPTBot naozaj pochádza zo siete OpenAI.

Okrem GPTBot sa krajina AI crawlerov rýchlo rozširuje. Anthropic, Perplexity, Meta a početní menší AI spoločnosti všetci prevádzkujú webové crawlery s rôznymi stupňami priehľadnosti o svojich činnostiach. Každý z týchto crawlerov môže byť napodobňovaný a každé napodobňovanie má svoje vlastné dôsledky v závislosti od toho, ako si cieľová stránka pochoduje s konkrétnym crawlerom. Stránka, ktorá blokuje všetky AI crawlery okrem GPTBot, napríklad, vytára silný podnet pre skrapovače na napodobňovanie GPTBot špecificky, pretože je to jediná identita, ktorá bude podávaná bez obmedzení.

Menší Hráči a Dlhý Chvost Bot Napodobňovania

Ekosystém botov sa rozprestiera ďaleko za Google, Bing a OpenAI. Yandex prevádzkuje významný crawler pre rusky hovoriacu web a falošní Yandex boti sú bežní na stránkach s ruským obsahom alebo ktorí specificky slúžia iný obsah Yandexu. Crawler spoločnosti DuckDuckGo, DuckDuckBot, je napodobňovaný napriek relatívne malej tržnej časti DuckDuckGo, pretože stránky, ktoré sa starajú o používateľov zameraných na ochranu súkromia, často dávajú DuckDuckBot prednostný prístup. Qwant, francúzsky vyhľadávač, a Seznam, český vyhľadávač, majú obaja crawlery, ktoré sú napodobňované na ich príslušných regionálnych trhoch.

Metodológia overenia funguje identicky pre všetky. Každý legitímny crawler funguje zo známej sady IP adries spojených s infraštruktúrou siete svojho operátora. ASN identifikuje sieť. Spätný DNS potvrdzuje názov hostiteľa. Forwardový DNS potvrdzuje IP. Tento reťazec overenia je univerzálny a platí bez ohľadu na špecifický crawler, ktorý sa kontroluje. Rozdiel je iba v referenčných údajoch: ktoré ASN, ktoré názvy hostiteľov a ktoré rozsahy IP patria každému crawleru. API detekcie botov spravuje tieto referenčné súbory údajov pre osem hlavných crawlerov a poskytuje overenie ako jedno volanie API.

Dlhý chvost ekosystému botov tiež obsahuje crawlery, ktoré nemajú za úlohu nikohoto napodobňovať. Toto sú poctivé boti. SEO nástroje ako Ahrefs, SEMrush a Moz prevádzkujú crawlery, ktoré sa presne identifikujú vo svojich reťazcoch user-agenta. Služby porovnávania cien, akademické výskumné crawlery, skúšky prístupnosti a validátory odkazov všetci hlásajú svoju skutočnú identitu. Tieto boti môžu byť alebo nemusia byť vítaní na žiadnej danej stránke, ale aspoň prevádzkovateľ stránky môže urobiť informované rozhodnutie o tom, či ich povolať. Problém je konkrétne s podvodníkmi, botmi, ktorí kllamú o tom, kto sú, aby získali prístup, ktorý by inak nedostali.

Vytvorenie Obrany na Základe Overenia Identity

Praktická obrana proti napodobňovaniu botov je priamočiara, keď je mechanizmus overenia na mieste. Každá prichádzajúca požiadavka, ktorá sa tvára byť z crawleru vyhľadávača, sa kontroluje voči poznanej infraštruktúre crawleru. Požiadavky, ktoré prejdú overením, sú povolené cez s akýmikoľvek výsadami, ktoré stránka poskytuje tomuto crawleru. Požiadavky, ktoré zlyhajú pri overení, sú buď úplne zablokované, alebo sa považujú za generickú premávku podľa štandardných limitov sadzby stránky a ovládacích prvkov prístupu.

Tento prístup je nadradený analýze správania z niekoľkých dôvodov. Analýza správania sa pokúša určiť, či je návštevník bot na základe spôsobu interakcie so stránkou: miera požiadaviek, vzory navigácie, spustenie JavaScriptu, pohyby myši. Tieto signály sú hlučné, generujú falošne pozitívne a môžu byť porazené dostatočne sofistikovanými botmi, ktorí napodobňujú ľudské správanie. Overenie na základe IP na rozdiel od toho poskytuje binárny výsledok s nulovými falošnými pozitívami. Požiadavka buď pochádza z siete spoločnosti Google alebo nie. Neexistuje žiadna nejasnota, žiadny prah na ladenie a žiadny model správania na trénovanie.

Implementácia nemusí byť synchrónna s každou požiadavkou pre stránky, kde je latencia obava. Overenie sa môže spustiť asynchrónne, s výsledkami cachovanie na IP adresu. Akonáhle sa IP overí ako patriaca Googlebot, všetky následné požiadavky z tejto IP sa môžu povolať bez re-overenia na konfigurovateľné obdobie. Tento prístup pridáva zanedbateľnú latenciu do pipeline požiadaviek, zatiaľ čo poskytuje komplexnú ochranu proti napodobňovaniu. Doba cachovania odráža kompromis: dlhšie cachování znamená menej hovorov API, ale o niečo väčšie okno, kde by sa dalo teoreticky zmeniť vlastníctvo doteraz overenej IP. V praxi sú pridelenia IP vyhľadávacieho motora mimoriadne stabilné a periódy cache po dobu dvadsať štyroch hodín alebo dlhšie sú bezpečné pre väčšinu aplikácií.

Výsledkom implementácie overenia identity na základe botov je čistejší, čestnejší pohľad na to, čo sa skutočne dostáva na server. Skutočné crawlery sú vítané. Falošné crawlery sú exponované a blokované. Údaje analýzy odrážajú skutočnosť namiesto fikcie. Serverové zdroje sú pridelené skutočným návštevníkom a legitímnym crawlerom namiesto toho, aby sa plytvalo na podvodníkov. Zoológia internetových botov je zložitá a neustále sa vyvíja, ale základný princíp overenia podľa pôvodu siete zostáva efektívny bez ohľadu na to, ako sa ekosystém botov zmení.

Často Kladené Otázky

Ako si overím, či je požiadavka skutočne z Googlebota?

Vykonajte spätné vyhľadávanie DNS na IP adrese a potvrďte, že názov hostiteľa končí na googlebot.com alebo google.com. Potom vykonajte forwardové vyhľadávanie DNS na tomto názve hostiteľa a potvrďte, že sa rozlišuje späť na rovnakú IP adresu. Alternatívne skontrolujte, že IP patrí AS15169, čo je autonómny systém spoločnosti Google. API detekcie botov vykonáva všetky tieto kontroly v jednom volání.

Môže bot falšovať svoju IP adresu, aby sa javil ako Googlebot?

IP adresy nemôžu byť falšované pre TCP pripojenia, pretože TCP handshake vyžaduje obojsmerné komunikácie. Bot môže triviálne falšovať reťazec user-agenta, ale nemôže nadviazať TCP spojenie s falšovanou zdrojovou IP. Preto je overenie na základe IP definitívne, kým identifikácia na základe user-agenta nie.

Čo je ASN a prečo je dôležitý na detekciu botov?

ASN alebo číslo autonómneho systému identifikuje sieť prevádzkovanú jednou organizáciou. Sieť spoločnosti Google je AS15169, Microsoft používa niekoľko ASN a OpenAI má svoje vlastné určené rozsahy. Kontrola IP bota voči očakávanému ASN okamžite odhalí, či požiadavka pochádza z infraštruktúry tvrdenej organizácie alebo z nesúvisiaceho dátového centra.

Mali by som blokovať všetky boty, ktoré zlyhajú pri overení?

Blokovanie botov, ktorí napodobňujú špecifické vyhľadávače, je všeobecne bezpečné a odporúčané. Avšak nie všetci neoverenými boti sú škodliví. Niektorí sú legitímne nástroje, ktoré sa jednoducho nepretvárajú ako crawlery. Kľúčovým rozlíšením je medzi botmi, ktorí kllamú o svojej identite, ktorí by mali byť blokovaní, a botmi, ktorí si čestne predstavujú, ktorí sa môžu vyhodnocovať jednotlivo.

Ako časté je napodobňovanie botov na typických webových stránkach?

Rozšírenosť sa líši podľa veľkosti stránky a typu obsahu. Stránky s vysokou autoritou domény, cenným obsahom alebo veľkým počtom stránok majú tendenciu priťahovať viac falošných crawlerov. Priemyselné údaje naznačujú, že premávka botov predstavuje tridsať až päťdesiat percent všetkej webovej prevádzky v celosvetovom meradle a významná časť z toho je prevádzka napodobňovania, ktorá sa tvári ako legitímne vyhľadávače.

Ovplyvňuje blokovanie falošných botov skutočnú indexáciu vyhľadávača?

Nie. Blokovanie na základe overenia ovplyvňuje iba požiadavky z IP adries, ktoré nepatria tvrdeným vyhľadávačom. Skutočný Googlebot, Bingbot a ďalšie legitímne crawlery prejdú overením a naďalej normálne pristupujú na stránku. Jediný vplyv je na podvodníkov.