Lažni GoogleBot, Lažni ChatGPT Crawler, Lažni Bing i Zoologija Internet Botova

Internet ima problem sa životinjama. Ispod površine aktivnosti ljudskog pretraživanja postoji čitav ekosistem automatizirane programe koji crawluju, skrapuju, testiraju i traže veb stranice u ogromnome obimu. Neki od ovih botova su korisni. Google-ov crawler indeksira stranice kako bi se pojavile u rezultatima pretrage. Bing-ov crawler radi isto za Microsoft-ov engine pretrage. OpenAI-jev crawler prikuplja podatke za treniranje jezika modela. Ovi legitimni crawleri se iskreno identifikuju, sledе pravila navedena u robots.txt datotekama i posluju iz poznate infrastrukture. Ali za svakog legitimnog crawlera, postoji tucet lažnjaka koji nose istu identifikacionu karticu dok rade nešto potpuno drugačije. Predstavljaju se kao Googlebot u svojoj user agent stringu, tvrdе da indeksiraju stranice za pretragu i oslanjaju se na činjenicu da će većina veb servera dati im prioritetnu obradu na osnovu te tvrdnje o identitetu. Zoologija ovih internet botova je jednako složena, konkurentna i povremeno bizarna kao bilo koji biološki ekosistem.

Razumevanje ovog ekosistema je važno za svakog ko upravlja veb stranicom, jer odluka da poverimo ili blokiramo bota ima direktne posledice. Blokiranje pravog crawlera search engine-a znači da stranice prestaju da se pojavljuju u rezultatima pretrage. Poveravanje u lažnog znači dozvoljavanju skraperу, instrumentu za prikupljanje konkurentskih informacija ili zlonamernom aktera da konzumira resurse servera dok se predstavlja kao izvor vrednosti. Mogućnost razlikovanja između pravих i lažnih crawlera nije teorijska vežba u oblasti sigurnosti. To je praktična neophodnost koja utiče na troškove propusnosti, performanse servera, tačnost analitike i zaštitu sadržaja. API za detekciju botova postoji upravo za tu svrhu, pružajući definitivnu verifikaciju identiteta crawlera na osnovu jedne stvari koja ne može biti falsifikovana: mrežne infrastrukture iz koje se bot povezuje.

Vrste Lažnog Googlebot-a

Googlebot je najviše imitiran crawler na Internetu, a razlozi su očigledni. Veb stranice rutinski daju Googlebot-u posebne privilegije. Limitе stope se relaksiraju. Zidovi plaćanja se ukanjaju. Sadržaj koji je skriven iza JavaScript rendiranja je unapred renderisan posebno za Google-ov crawler. Robots.txt pravila često eksplicitno dozvoljavaju Googlebot-u pristup sekcijama koje su ograničene za druge crawlere. Predstavljanjem kao Googlebot, lažni crawler nasleđuje sve ove privilegije bez da ih zaslužи. Veb stranica služi svoj najbolji sadržaj, najbrže odgovore i najpotpunije stranice onome što veruje da je Google-ova infrastruktura indeksiranja, dok je u stvarnosti primalac skraper koji radi iz iznajmljenog servera u data centru.

Pravi Googlebot se može identifikovati sa apsolutnom sigurnosti. On posluje isključivo sa IP adresa unutar Google-ovog autonomnog sistema, AS15169. Obrnuta DNS pretraga na bilo kojoj pravoj Googlebot IP adresi vraća hostname koji završava sa googlebot.com ili google.com. Obična DNS pretraga na tom hostname-u se razrešava nazad na originalnu IP adresu. Ovaj lanac verifikacije u tri koraka, IP u hostname u IP, je kriptografski vezan za Google-ovu DNS infrastrukturu i ne može biti promenjena bez kompromitovanja Google-ove DNS servera, što je praktički nemoguće. Google bot detektor izvršava tačan lanac verifikacije i vraća definitivni rezultat.

Lažni Googlebot, nasuprot tome, potiče iz infrastrukture opšte namene u oblaku koju bilo ko može iznajmiti po satu. Amazon Web Services, Google Cloud Platform (ironično), Microsoft Azure, DigitalOcean, Hetzner, OVH i Contabo su česta mesta podriğe. User agent string je kopiran reč po reč iz pravog Googlebot-a, često uključujući verziju i format URL-a crawlinga. Neki sofisticiraniji lažnjaci čak i oponašaju obrazac zahteva Googlebot-a, raspoređujući svoje zahteve i prateći veze u obrazcu koji liči na legitimno crawliranje. Ali IP adresa ih otkriva svaki put. Nijedan obim oponašanja ponašanja ne može promeniti činjenicu da zahtev potiče iz AS16509 (Amazon) umesto AS15169 (Google).

Bingbot i Njegovi Lažnjaci

Microsoft-ov Bingbot je drugi najčešće imitirani crawler, a njegova verifikacija prati sličan obrazac kao Googlebot, ali sa nekim važnim razlikama. Pravi Bingbot posluje iz Microsoft-ove infrastrukture, a njegove IP adrese se razrešavaju preko obrnute DNS u hostname-e unutar search.msn.com domena. ASN verifikacija proverava protiv Microsoft-ovih autonomnih sistema, koji uključuju nekoliko ASN-a zbog obimne mrežne infrastrukture kompanije. Verifikacija je podjednako pouzdana, ali zahteva svest o široj alokaciji IP-a Microsoft-a u poređenju sa Google-ovom konzolidiranijom distribuciјom.

Lažni Bingbot služi mnogим od istih svrha kao lažni Googlebot, ali se pojavljuje u nešto manjim količinama, odraʼnavajući manji tržišni udeo Bing-a i odgovarajući manji poticaj da se on lažno predstavlja. Međutim, veb stranice koje specifično optimizuju za Bing ili koje služe drugačiji sadržaj Bingbot-u privlače neuprosioran broj od lažnog predstavljanja. SEO alati koji analiziraju kako stranica izgleda Bing-ovu crawler često koriste lažne Bingbot user agente da pretraže Bing-specifičnu verziju stranica. Usluge konkurentske inteligencije rade isto da bi videle koji sadržaj konkurenti specifično služe Microsoft-ovoj infrastrukturi pretrage.

Metodologija detekcije je identična u principu. Proverite IP adresu protiv Microsoft-ovih poznatih rasponа. Izvršite obrnutu i pretragu DNS-a. Potvrdite da se ASN poklapa. Zahtev koji se predstavlja kao Bingbot a potiče iz Hetzner servera u Finskoj je lažan sa apsolutnom sigurnosti, bez obzira koliko uvoljivо je user agent string oblikovan. API za detekciju botova automatski obrađuje ovu verifikaciju, proveravajući tvrdnje identiteta naspram stvarnog mrežnog porekla i vraćajući jasnu presudu.

ChatGPT Crawler i Novi Val AI Botova

Pojava velikih jezikönih modela kreiraла je potpuno novu kategoriju veb crawlera i potpuno novu kategoriju lažnog predstavljanja. OpenAI-jev GPTBot crawluje veb da prikuplja podatke za obuku, a njegova prisutnost postala je jedna od najvećih spornih tema u veb objavljivanju. Mnogi izdavači žele da blokiraju GPTBot da bi sprečili da njihov sadržaj bude korišćen za obuku AI-ja. Drugi žele da ga dozvolе, nadajući se povoljnom tretmanu u ChatGPT odgovore. U svakom slučaju, mogućnost razlikovanja pravog GPTBot-a od lažnih verzija je kritična za sprovođenje bilo koje politike koju je izdavač odlučio.

Pravi GPTBot, kao i pravi Googlebot, posluje iz specifičnog niza IP adresa povezanih sa OpenAI-jevom infrastrukturom. User agent string se jasno identifikuje, a IP rasponи su objavljeni i verifikovani. Lažni GPTBot, koji se brzo proširio od lansiranja ChatGPT-a, koristi isti user agent string, ali se povezuje iz nepovezane infrastrukture. Motivacije za lažno predstavljanje GPTBot-a su raznolike. Neki skraperi ga koriste jer će izdavači koji su odlučili da dozvolе AI trenira crawlere da slobodno posluže sadržaj bilo čemu što se predstavlja kao GPTBot. Drugi ga koriste kao generiči identitet za pokrivanje, oslanjajući se na pretpostavku da su administratori servera manje upoznati sa OpenAI IP rasponima nego sa Google-ovima i zato manje verovatno da će verifikovati tvrdnje. OpenAI crawler detektor to direktno rešava, verifikujući da li zahtev GPTBot koji se tvrdи da potiče zaista iz OpenAI-jeve mreže.

Izvan GPTBot-a, pejzaž AI crawlera se brzo širi. Anthropic, Perplexity, Meta i brojne manje AI kompanije svih imaju veb crawlere sa različitim stepenom transparentnosti o njihovim aktivnostima. Svaki od ovih crawlera može biti imitiran, a svako lažno predstavljanje nosi svoje implikacije u zavisnosti od toga kako ciljana stranica tretira tog posebnog crawlera. Na primer, stranica koja blokira sve AI crawlere osim GPTBot-a kreira jak poticaj za skrapere da se lažno predstavе kao GPTBot specifično, jer je to jedini identitet koji će biti poslužen sadržajem bez ograničenja.

Manji Igrači i Dugi Rep od Lažnog Predstavljanja Botova

Ekosistem botova se proteže daleko izvan Google-a, Bing-a i OpenAI-ja. Yandex upravlja značajnom crawler za rusku veb, a lažni Yandex botovi su česti na stranicama sa ruskim sadržajem ili koje specifično služe drugačiji sadržaj Yandex-u. Crawler DuckDuckGo-a, DuckDuckBot, je imitiran uprkos DuckDuckGo-ovu relativno malom tržišnom udelu, jer stranice koje opslužuju poverljive korisnike često daju DuckDuckBot-u prioritetni pristup. Qwant, francuski search engine, i Seznam, česki search engine, imaju crawlere koji se imitiraju na svojim odrеđenim regionalnim tržištima.

Metodologija verifikacije radi identično za sve njih. Svaki legitimni crawler posluje iz poznatog niza IP adresa povezanih sa mrežnom infrastrukturom njegovog operatera. ASN identifikuje mrežu. Obrnuta DNS potvrđuje hostname. Obična DNS potvrđuje IP. Ovaj lanac verifikacije je univerzalan i primenjuje se bez obzira na specifičnog crawlera koji se proverava. Razlika je samo u referentnim podacima: koji ASN-ovi, koji obrasci hostname-a i koji IP rasponи pripradaju svakom crawler-u. API za detekciju botova održava ove referentne skupove podataka za osam glavnih crawlera i pruža verifikaciju kao jedan API poziv.

Dugi rep ekosistema botova takođe uključuje crawlere koji se ne imitiraju nikoga. Ovo su pošteni botovi. SEO alati poput Ahrefs, SEMrush i Moz imaju crawlere koji se tačno identifikuju u svojim user agent stringovima. Usluge poređenja cena, akademski istraživački crawleri, provere pristupačnosti i validatori veza, sve najavljuje svoju pravu identitetu. Ovi botovi mogu biti ili ne biti poželjni na bilo kojoj stranici, ali bar operator stranice može doneti informisanu odluku o tome da li da ih dozvoli. Problem je specifično sa lažnjacima, botovima koji lažu o tome ko su kako bi dobili pristup koji bi inače ne dobili.

Izgradjivanje Odbrane Zasnovane na Verifikaciji Identiteta

Praktična odbrana protiv lažnog predstavljanja botova je jednostavna čim je mehanizam verifikacije na mestu. Svaki dolazni zahtev koji tvrdи da je iz search engine-a crawler se proverava naspram poznate infrastrukture crawlera. Zahtevi koji prođe verifikaciju dozvoljeni su sa bilo kojim privilegijama koje stranica daje tom crawleru. Zahtevi koji ne produ verifikaciju se ili kompletnо blokiraju ili se tretiraju kao generiči saobraćaj podložan standardnom ograničenju stope stranice i kontrolama pristupa.

Ovaj pristup je bolji od analize ponašanja iz nekoliko razloga. Analiza ponašanja pokušava da odredi da li je posетilac bot na osnovu kako se koristi stranica: stopa zahteva, obrasci navigacije, JavaScript izvršavanje, pokrete miša. Ovi signali su bučni, stvaraju lažne pozitive i mogu biti poraženi dovoljno sofisticiranих botova koji oponašaju ljudsko ponašanje. IP-basirana verifikacija, nasuprot tome, proizvodi binarni rezultat sa nula lažnih pozitiva. Zahtev je ili dolazi iz Google-ove mreže ili ne. Nema dvosmislenosti, nema praga za tuning i nema modela ponašanja za obuku.

Implementacija ne treba biti sinhronizovana sa svakim zahtevom za stranice gde je latencija zabrinutost. Verifikacija može da se izvršи asinkrono, sa rezultatima keširano po IP adresi. Čim je IP proverен kao pripadajući Googlebot-u, svi kasniji zahtevi iz te IP mogu biti dozvoljeni bez ponovne verifikacije za konfigurabilni period. Ovaj pristup dodaje zanemarljivo latenciju na liniji zahteva tokom pružanja sveobuhvatne zaštite protiv lažnog predstavljanja. Period keširanja odraʼnava kompromis: duže keširanje znači manje API poziva, ali malo veće prozora gde IP koji je prethodno proveren može teoretski da promeni vlasništvo. U praksi, alokacija search engine IP-a je izuzetno stabilna, i keširani periodi od 24 časa ili više su sigurni za većinu aplikacija.

Rezultat primene verifikacije identiteta na osnovu mreže je čišći, iskreniji pogled na ono što zapravo pogađa server. Pravi crawleri su dobrodošli. Lažni crawleri su izloženi i blokirani. Analitički podaci odraʼnavaju stvarnost umesto fikcije. Resursi servera se dodeljuju pravim posetilacima i legitimnim crawlerima umesto da se troše na lažnjake. Zoologija internet botova je složena i stalno se evoluciona, ali fundamentalni princip verifikacije kroz mrežno poreklo ostaje efektivan bez obzira na to kako se ekosistem botova menja.

Često Postavljana Pitanja

Kako mogu proveriti da li je zahtev zaista iz Googlebot-a?

Izvršite obrnutu DNS pretragu na IP adresi i potvrdite da hostname završava sa googlebot.com ili google.com. Zatim izvršite pretragu DNS-a na tom hostname-u i potvrdite da se vraća na istu IP. Alternativno, proverite da li IP pripada AS15169, što je Google-ov autonomni sistem. API za detekciju botova vrši sve ove provere u jednom pozivu.

Može li bot falsifikovati svoju IP adresu da izgleda kao Googlebot?

IP adrese ne mogu biti lažno predstavljene za TCP konekcije jer TCP handshake zahteva dvosmislenoj komunikaciju. Bot može lažno predstaviti user agent string trivijalno, ali ne može uspostaviti TCP konekciju sa lažnom IP adresom. Ovo je razlog zašto je IP-basirana verifikacija definitivna dok identifikacija na osnovu user agenta nije.

Šta je ASN i zašto je to važno za detekciju botova?

ASN ili Broj Autonomnog Sistema identifikuje mrežu koju upravlja jedno preduzeće. Google-ova mreža je AS15169, Microsoft koristi nekoliko ASN-a, i OpenAI ima svoje nazivne rasponе. Proveravanje IP-a bota naspram očekivanog ASN-a odmah otkriva da li zahtev potiče iz infrastrukture tvrdnje organizacije ili iz nepovezanog data centra.

Trebam li blokirati sve botove koji nisu verifikovani?

Blokiranje botova koji se lažno predstavljaju kao specifični search engine je generalno sigurno i preporučeno. Međutim, nisu svi neverifikovani botovi zlonamer. Neki su legitimni alati koji jednostavno ne imitiraju crawlere. Ključna razlika je između botova koji lažu o svojem identitetu, što treba da se blokira, i botova koji iskreno identifikuju sebe, što može biti evaluirano pojedinačno.

Koliko je česta lažna predstavljanja botova na tipičnim veb stranicama?

Prevalencija se razlikuje po veličini stranice i tipu sadržaja. Stranice sa visokim autokratom domena, vrednima sadržaja ili velikim brojem stranica imaju tendenciju da privlače više lažnih crawlera. Industrijski podaci sugerišu da saobraćaj botova čini trideset do pedeset procenata sveog veb saobraćaja globalno, i značajan deo toga je saobraćaj lažnog predstavljanja koji tvrdи da su legitimni search engine crawleri.

Da li blokiranje lažnih botova utiče na indeksiranje pravog search engine-a?

Nе. Blokiranje zasnovano na verifikaciji samo utiče na zahteve iz IP adresa koje ne pripradaju tvrdnji search engine-a. Pravi Googlebot, Bingbot i drugi legitimni crawleri prolaze verifikaciju i nastavljaju da pristupaju stranici normalno. Jedini uticaj je na lažnjake.