Az interneten van egy vadon-problémája. Az emberi böngészési tevékenység felszíne alatt egy teljes ökoszisztéma létezik automatizált programoknak, amelyek hatalmas léptékben crawleriznek, scrapolnak, kutatnak és kérnek weblapokat. Néhány ezek közül a bot hasznos. A Google crawlere indexálja az oldalakat, hogy megjelenjenek a keresési eredményekben. A Bing crawlere ugyanezt teszi a Microsoft keresőmotorja számára. Az OpenAI crawlere gyűjti az adatokat a nyelvi modellek tanításához. Ezek a jogos crawlerek őszintén azonosítják magukat, követik a robots.txt fájlok által meghatározott szabályokat, és az ismert infrastruktúrából működnek. De minden egyes jogos crawlerhez tucatnyi utánzó tartozik, amely ugyanazt a névkártyát viseli, miközben valami teljesen mást csinál. A felhasználó-ügynök karakterláncában Googlebot-nak jelentkeznek, azt állítják, hogy oldalakat indexálnak a kereséshez, és arra számítanak, hogy a legtöbb webszerver különleges kezelést fog adni nekik az igényelt identitás alapján. Az internet botok zoológiája ugyanolyan összetett, versengő és alkalmanként bizarr, mint bármely biológiai ökoszisztéma.

Az ökoszisztéma megértése bárki számára fontos, aki weboldalt üzemeltet, mert a bot megbízása vagy blokkolása döntésének közvetlen következményei vannak. A valódi keresőmotor crawlerének blokkolása azt jelenti, hogy az oldalak eltűnnek a keresési eredményekből. Az egyéb crawlereknek való megbízás azt jelenti, hogy egy scraper, versenytárs-intelligencia eszköz vagy rosszindulatú szereplő felhasználja a szerver erőforrásait, miközben azt pretendálja, hogy értéket nyújt. A valódi és hamis crawlerek közötti megkülönböztetés képessége nem elméleti biztonsági gyakorlat. Ez egy gyakorlati szükséglet, amely közvetlenül befolyásolja a sávszélesség-költségeket, a szerver teljesítményt, az analitika pontosságát és a tartalom védelemét. A bot detektálás API pontosan erre a célra létezik, amely a bot identitásának végleges ellenőrzését biztosítja az alapján, ami nem lehet meghamisítva: az a hálózati infrastruktúra, amelyből a bot csatlakozik.

A Hamis Googlebot Fajai

A Googlebot az interneten leginkább utánzott crawler, és az okok nyilvánvalóak. A webhelyek rutinszerűen különleges jogosultságokat adnak a Googlebot-nak. Az árkorlátozások lazák. A fizetési falak felemelkednek. A JavaScript renderelés mögött rejtett tartalom előzőleg renderelve van kifejezetten a Google crawlerhez. A Robots.txt szabályok gyakran explicit módon engedélyezik a Googlebot hozzáférést az olyan szakaszokhoz, amelyek más crawlerek számára korlátozottak. Azzal, hogy Googlebot-nak jelentkezik, egy hamis crawler örökli az összes ezeket jogosultságokat anélkül, hogy bármelyikét megkeresné. A webhely a legjobb tartalmat, a leggyorsabb válaszokat és a legteljesebb lapokat szolgálja fel annak, amit a Google indexelési infrastruktúrájának hisz, amikor valójában a címzett egy scraper, amely egy bérlett szerverből működik egy adatközpontban.

A valódi Googlebot abszolút bizonyossággal azonosítható. Kizárólag a Google autonóm rendszerén belüli IP-címekből működik, AS15169. A visszamenő DNS keresés bármely valódi Googlebot IP-címen egy olyan gazdanevet ad vissza, amely a googlebot.com vagy google.com-ban végződik. Az előrefelé DNS keresés az adott gazdanéven az eredeti IP-címre oldódik vissza. Ez a háromirányú ellenőrzési lánc, IP a gazdanévhez az IP-hez, kriptográfiailag a Google DNS infrastruktúrájához van kötve, és nem lehet meghamisítani anélkül, hogy a Google DNS szervereit feltörnénk, ami gyakorlatilag lehetetlen. A Google bot detector végzi el ezt az ellenőrzési láncot, és egy végleges eredményt ad vissza.

A hamis Googlebot ezzel szemben az általános célú felhő infrastruktúrából származik, amelyet bárki egy óra alatt bérelhet. Az Amazon Web Services, a Google Cloud Platform (ironikusan), a Microsoft Azure, a DigitalOcean, a Hetzner, az OVH és a Contabo gyakran előfordulnak. A felhasználó-ügynök karakterlánc szó szerint másolva van a valódi Googlebot-ról, gyakran beleértve a verziószámot és a crawl URL formátumot. Néhány kifinomult hamisítás még utánozza a Googlebot kérésének mintáit, megosztja kéréseit és olyan minta szerint követi a hivatkozásokat, amely a legitim crawlerre hasonlít. De az IP-cím minden alkalommal leleplezi őket. Nincs olyan viselkedési utánzásmé, amely megváltoztathatná azt a tényt, hogy a kérés az AS16509 (Amazon) helyett az AS15169 (Google) közül származik.

Bingbot és Utánzói

A Microsoft Bingbot-ja a második leggyakrabban utánzott crawler, és annak ellenőrzése hasonló mintát követi a Googlebot-tal, de néhány fontos különbséggel. A valódi Bingbot a Microsoft infrastruktúrájából működik, és az IP-címei egy olyan gazdanévra oldódnak vissza DNS-en keresztül, amely a search.msn.com tartományon belüli. Az ASN ellenőrzés a Microsoft autonóm rendszerei ellen ellenőrzi, amely a vállalat kiterjedt hálózati infrastruktúrája miatt több ASN-t tartalmaz. Az ellenőrzés egyenlő mértékben megbízható, de a Microsoft-nak a Google-nál nagyobb IP-elosztási tudatosságára van szükség.

A hamis Bingbot ugyanazokat a célokat szolgálja, mint a hamis Googlebot, de valamelyest kisebb mennyiségben jelenik meg, ami a Bing kisebb piaci részesedéseit és az ennek megfelelő kisebb ösztönzést tükrözi az utánzásához. Azonban azok a webhelyek, amelyek kifejezetten a Binge-re optimálznak, vagy amelyek különböző tartalmat szolgálnak a Bingbot-nak, aránytalan utánzásokat vonzanak. Az SEO eszközök, amelyek elemzik, hogyan jelenik meg egy oldal a Bing crawlerének, gyakran hamis Bingbot felhasználó-ügynök karakterláncokat használnak az oldal Bing-specifikus verziójának lekéréséhez. A versenytárs-intelligencia szolgálatok ugyanezt teszik, hogy lássák, milyen tartalmat szolgálnak a Microsoft keresési infrastruktúrája számára.

Az észlelési módszer elvben azonos. Ellenőrizze az IP-címet a Microsoft ismert tartományai ellen. Végezze el a fordított és előrefelé DNS ellenőrzést. Erősítse meg az ASN egyezést. Az egy olyan kérés, amely Bingbot-nak állít és a Hetzner szerverből származik Finnországban, abszolút bizonyossággal hamis, függetlenül attól, hogy a felhasználó-ügynök karakterlánc mennyire meggyőzően készült. A bot detektálás API automatikusan kezeli ezt az ellenőrzést, ellenőrizve az igényelt identitást a tényleges hálózati eredménnyel szemben, és egy világos választ adva.

A ChatGPT Crawler és az AI Botok Új Hulláma

A nagy nyelvi modellek megjelenése egy teljesen új kategóriájú webcrawlert és egy teljesen új utánzási kategóriát hozott létre. Az OpenAI GPTBot-ja crawlerizik az interneten az adatok gyűjtéséhez, és a jelenléte a webes közzétételben az egyik legvitatottabb témává vált. Sok kiadó szeretné blokkolni a GPTBot-ot, hogy megakadályozza tartalmukat az AI tanításhoz való felhasználásban. Mások szeretnék engedélyezni, remélve, hogy kedvezőbb kezelésben részesülnek a ChatGPT válaszaiban. Akárhogyan is, a valódi GPTBot és a hamis verziók közötti megkülönböztetés képessége kritikus bármely olyan irányelvhez, amelyet a kiadó hozott létre.

A valódi GPTBot, mint a valódi Googlebot, az OpenAI infrastruktúrájához társított IP-címek egy adott halmazáról működik. A felhasználó-ügynök karakterlánc világosan azonosítja magát, és az IP tartományok közzétettek és ellenőrizhetőek. A hamis GPTBot, amely a ChatGPT megindítása óta gyorsan terjedt, ugyanazt a felhasználó-ügynök karakterláncot használja, de az unrelated infrastruktúrájából csatlakozik. A GPTBot utánzásának motivációi változatosak. Néhány scraper azért használja, mert az az AI tanítási crawlereknek engedélyezni kívánó kiadók szabadon szolgálják fel a tartalmat a GPTBot-nak állító bárminek. Mások generikus fedőazonosságként használják, azzal számítva, hogy a szerver adminisztrátorok kevésbé ismerik az OpenAI IP tartományait, mint a Google-ét, és ezért kevésbé valószínű, hogy ellenőrzik az igényt. A OpenAI crawler detector közvetlenül foglalkozik ezzel, ellenőrizve, hogy az állított GPTBot kérés valóban az OpenAI hálózatáról származik-e.

A GPTBot túlmenően, az AI crawler tájkép gyorsan bővül. Az Anthropic, Perplexity, Meta és számos kisebb AI vállalat mind működtet webcrawlereket a tevékenységeiről való transzparencia különböző fokú. Ezek közül a crawlerek mindegyikét utánozni lehet, és minden utánzásnak saját következményei vannak attól függően, hogy a cél hely hogyan kezeli azt az adott crawlert. Egy olyan webhely, amely az összes AI crawlert blokkol, kivéve a GPTBot-ot, például erős ösztönzést hoz létre a scraplerek számára, hogy kifejezetten a GPTBot-ot utánozzanak, mert ez az az azonosság, amely a korlátozás nélkül kiszolgálhat tartalmat.

A Kisebb Játékosok és a Bot Utánzás Hosszú Farka

A bot ökoszisztéma messze túlmutat a Google, Bing és OpenAI-on. A Yandex az orosz nyelvű web jelentős crawlerét üzemelteti, és a hamis Yandex botok gyakoriak az orosz nyelvű tartalommal vagy az orosz nyelvű tartalomhoz kifejezetten Yandex-hez más tartalmat szolgáló webhelyeken. A DuckDuckGo crawlere, a DuckDuckBot, utánozva van a DuckDuckGo viszonylag kis piaci részesedése ellenére, mert az adatvédelmet-tudatos felhasználók számára gondozó webhelyek gyakran kitüntetett hozzáférést adnak a DuckDuckBot-nak. A Qwant, a francia keresőmotor, és a Seznam, a cseh keresőmotor, mind rendelkezik crawlerral, amely az azok megfelelő regionális piacaiban utánozza.

Az ellenőrzési módszer azonos az összes tekintetében. Minden jogos crawler az operátor hálózati infrastruktúrájához társított IP-címek egy ismert halmazáról működik. Az ASN azonosítja a hálózatot. A fordított DNS megerősíti a gazdanevet. Az előrefelé DNS megerősíti az IP-t. Ez az ellenőrzési lánc univerzális, és alkalmazandó függetlenül az adott ellenőrzött crawlertől. A különbség csak az referencia adatok: mely ASN-k, mely gazdanév mintázatok és mely IP tartományok tartoznak az egyes crawlerekhez. A bot detektálás API fenntartja ezeket az referencia adatkészleteket nyolc fő crawler számára, és az ellenőrzést egyetlen API hívásként biztosítja.

A bot ökoszisztéma hosszú farka olyan crawlereket is tartalmaz, amelyek nem utánozzák senkit. Ezek az őszinte botok. Az olyan SEO eszközök, mint az Ahrefs, a SEMrush és a Moz, olyan crawlereket működtetnek, amelyek pontosan azonosítják magukat a felhasználó-ügynök karakterláncukban. Az árösszehasonlítás szolgáltatások, az akadémiai kutatáscrawlerek, az eléréhetőség ellenőrzők és a hivatkozás validátorok mindannyian bejelentik valódi identitásukat. Ezek a botok lehet, vagy nem lehet kívánatos az adott webhelyen, de legalább a webhely operátora tájékoztatott döntést hozhat arról, hogy engedélyezze-e őket. A probléma kifejezetten az utánzókkal van, azok a botok, amelyek hazudnak az identitásukról, hogy olyan hozzáférést szerezzenek, amelyet egyébként nem kapnának meg.

Védekezés Felépítése az Identitás Ellenőrzésére Alapozva

A bot utánzás gyakorlati védelme egyenes, ha az ellenőrzési mechanizmus már működik. Minden bejövő kérés, amely egy keresőmotor crawlerétől igényelni próbál, a crawler ismert infrastruktúrája ellen ellenőrzi. Az ellenőrzést átadó kérések áthaladnak a webhely, hogy az adott crawlerhez adott jogosultságokkal ellátott kérések. Az ellenőrzést nem teljesítő kérések vagy teljesen blokkolódnak, vagy a webhely standard árkorlátozása és hozzáférési ellenőrzésének alá tartozó általános forgalomként kezelik.

Ez a megközelítés több okból felülmúlja a viselkedési elemzést. A viselkedési elemzés megpróbálja meghatározni, hogy egy látogató bot-e azon alapján, hogy hogyan lép kapcsolatba a webhellyel: kérés aránya, navigációs mintázatok, JavaScript végrehajtás, egér mozgások. Ezek a jelek zajosak, hamis pozitív eredményeket okoznak, és olyan kellően kifinomult botokkal felvehetőek, amelyek utánozzák az emberi viselkedést. Az IP-alapú ellenőrzés ezzel szemben nulla hamis pozitívval rendelkező bináris eredményt hoz létre. Egy kérés vagy a Google hálózatáról származik, vagy nem. Nincs kétértelműség, nincs küszöb a hangoláshoz, és nincs viselkedési modell a tanításhoz.

A megvalósítás nem szükséges szinkron az egyes kérésekkel azok a webhelyek számára, ahol az lusta probléma. Az ellenőrzés aszinkron módon futhat, az eredmények IP-cím szerint gyorsítótárazva. Miután egy IP Googlebot-nak kell lennie ellenőrizve, az adott IP-ből az összes későbbi kérés engedélyezhető anélkül, hogy konfigurálható időtartamra újraellenőrizni lenne szükséges. Ez a megközelítés elhanyagolható késést adott a kérés csőhöz, miközben átfogó védelmet nyújt az utánzás ellen. A gyorsítótár időtartama az egyensúlyt tükrözi: a hosszabb gyorsítótárolás kevesebb API hívást jelent, de egy valamivel nagyobb ablakot, ahol egy korábban ellenőrzött IP meglenne lehetne az tulajdon változása. A gyakorlatban a keresőmotor IP kiosztása rendkívül stabil, és a huszonegy órás vagy nagyobb gyorsítótár időtartamai biztonságosak a legtöbb alkalmazás számára.

Az identitás-alapú bot ellenőrzés megvalósításának eredménye tisztább, őszintébb nézete az interneten az, ami valóban a szervert éri. A valódi crawlerek üdvözlöm. A hamis crawlerek kifejtik és blokkolódnak. Az analitika adatok a valóságot tükrözik a fiktív helyett. A szerver erőforrásait a valódi látogatók és a jogos crawlerek számára foglalják le a helyett, hogy a hamis crawlerek pazarolják. Az internet botok zoológiája összetett és folyamatosan fejlődik, de a hálózati eredmény szerinti ellenőrzés alapvető elve továbbra is hatékony, függetlenül attól, hogy a bot ökoszisztéma hogyan változik.

Gyakran Ismételt Kérdések

Hogyan ellenőrizhetem, hogy egy kérés valóban a Googlebot-ból származik-e?

Végezzen fordított DNS keresést az IP-címen, és erősítse meg, hogy a gazdanév a googlebot.com vagy google.com-ban végződik-e. Ezután végezzen előrefelé DNS keresést az adott gazdanéven, és erősítse meg, hogy ugyanarra az IP-címre oldódik-e vissza. Vagy ellenőrizze, hogy az IP az AS15169-hez tartozik-e, amely a Google autonóm rendszere. A bot detektálás API az összes ezeket ellenőrzést egyetlen hívásban végzi.

Egy bot meghamisíthatja az IP-cím megjelenítéseit, hogy Googlebot-nak tűnjön?

Az IP-címek TCP kapcsolatokhoz nem lehetnek meghamisíthatók, mert a TCP kézfogás kétirányú kommunikációt igényel. Egy bot triviálisan meghamisíthatja a felhasználó-ügynök karakterláncát, de nem létesíthet TCP kapcsolatot hamis forráscímmel. Ez az, ami az IP-alapú ellenőrzést véglegesítté teszi, míg a felhasználó-ügynök alapú azonosítás nem.

Mi az ASN, és miért számít a bot detektáláshoz?

Az ASN, vagy Autonomous System Number, egy szervezet által üzemeltetett hálózatot azonosít. A Google hálózata az AS15169, a Microsoft több ASN-t használ, az OpenAI-nak megjelölt tartományai vannak. Az egy bot IP-címét az várható ASN ellen ellenőrizve azonnal feltárja, hogy a kérés az állított szervezet infrastruktúrájáról vagy egy unrelated adatközpontból származik-e.

Blokkoljam az összes botot, amely nem felel meg az ellenőrzésnek?

Az az ellenőrzésben nem sikerült botok blokkolása, amelyek meghatározott keresőmotorok utánzóit, általában biztonságos és ajánlott. De nem minden ellenőrzésben sikertelen bot rosszindulatú. Néhány legitim eszköz, amely egyszerűen nem utánoz crawlereket. A kulcs különbség az az botok között, amelyek az identitásukról hazudnak, amelyeket blokkol, és azok, amelyek őszintén azonosítják magukat, amelyeket egyedileg lehet értékelni.

Mennyire gyakori a bot utánzása a tipikus webhelyeken?

Az előfordulás a webhely mérete és tartalomtípusa szerint változik. Az olyan webhelyek, amelyek magas domain autoritással, értékes tartalommal vagy nagy oldalszámmal rendelkeznek, több hamis crawlert vonzanak. Az iparági adatok azt sugallják, hogy a bot forgalom a globális összes webes forgalom harminc-ötven százalékát teszi ki, és ennek egy jelentős része az utánzási forgalom az olyan legitim keresőmotor crawlerek igénylésénél, mint a Googlebot.

Hat a hamis botok blokkolása a valódi keresőmotor indexelésére?

Nem. Az ellenőrzés-alapú blokkolás csak azok kéréseit befolyásolja, amelyek nem az állított keresőmotorhoz tartozó IP-címekről származnak. A valódi Googlebot, Bingbot és más legitim crawlerek ellenőrzésben meghiúsulnak, és az említett szokásos módon folytatódnak az oldal meglátogatásában. Az egyetlen hatás az utánzókon van.