Väärennetty GoogleBot Väärennetty ChatGPT-indeksijä Väärennetty Bing ja internetin bottien zoologia
Internetilla on eläimistövaikeuksia. Ihmisten selaustoiminnan alla piilevät kokonaiset automatisoidun ohjelmien ekosysteemi, joka indeksoi, kaavii, tutkii ja pyytää verkkosivuja valtavassa mittakaavassa. Osa näistä boteista on hyödyllisiä. Googlen indeksijä indeksoi sivuja, jotta ne näkyvät hakutuloksissa. Bingin indeksijä tekee samaa Microsoftin hakukoneelle. OpenAI:n indeksijä kerää harjoitustietoja kielimalleille. Nämä lailliset indeksijät tunnistautuvat rehellisesti, noudattavat robots.txt-tiedostoissa määritettyjä sääntöjä ja toimivat tunnetusta infrastruktuurista. Mutta jokaista laillista indeksijää kohden on kymmeniä väärennöksiä, joilla on päällä sama nimilappu, mutta he tekevät jotain aivan muuta. He ilmoittautuvat Googlebotiksi käyttäjäagentin merkkijonossaan, väittävät indeksoivansa sivuja hakuun, ja luottavat siihen, että useimmat verkkopalvelimet antavat heille etuoikeutetun kohtelun tämän väitetyn henkilöllisyyden perusteella. Näiden internetbottien zoologia on yhtä monimutkainen, kilpailullinen ja joskus outo kuin mikä tahansa biologinen ekosysteemi.
Tämän ekosysteemin ymmärtäminen on tärkeää kaikille, jotka ylläpitävät verkkosivustoa, koska päätös luottaa tai estää bottia on suorilla seurauksilla. Todellisen hakukoneen indeksijän estäminen tarkoittaa, että sivut lopettavat näkymisen hakutuloksissa. Väärennön luottaminen tarkoittaa, että sallitaan kaapija, kilpailuintohimo-työkalu tai haitallinen toimija kuluttaa palvelinresursseja samalla kun tekeytyy arvoa tarjoavaksi. Kyky erottaa todelliset indeksijät väärennöksistä ei ole teoreettinen turvallisuusharjoitus. Se on käytännöllinen välttämättömyys, joka vaikuttaa kaistanleveyskustannuksiin, palvelimen suorituskykyyn, analytiikan tarkkuuteen ja sisällön suojeluun. Bot-tunnistus-API on olemassa juuri tätä tarkoitusta varten, tarjoten lopullisen indeksijän henkilöllisyyden varmentamisen yhden asian perusteella, jota ei voi väärittää: verkon infrastruktuuri, josta botti yhdistyy.
Väärennetyn Googlebottin lajit
Googlebot on eniten vääritetty indeksijä internetissa, ja syyt ovat ilmeiset. Verkkosivustot myöntävät Googlebotille säännöllisesti erityisoikeuksia. Nopeusrajoitukset höllentyvät. Maksumuurit poistetaan. Sisältö, joka on piilotettu JavaScript-renderöinnin taakse, on ennalta renderöity erityisesti Googlen indeksijää varten. Robots.txt-säännöt usein selkeästi sallivat Googlebotille pääsyn osiin, jotka ovat rajoitettuja muille indeksijöille. Väittämällä olevansa Googlebot, väärä indeksijä perii kaikki nämä oikeudet ansaitsematta yhtään niistä. Verkkosivusto tarjoaa parhaansa sisältöä, nopeimmat vastaukset ja täydellisimmät sivut sille, mikä se uskoo olevan Googlen indeksointi-infrastruktuuri, kun todellisuudessa vastaanottaja on kaapija, joka toimii vuokratusta palvelimesta tietokeskuksesta.
Todellinen Googlebot on tunnistettavissa ehdottomasti. Se toimii yksinomaan Google:n autonomisesta järjestelmästä AS15169:stä peräisin olevista IP-osoitteista. Käänteinen DNS-haku mille tahansa todelliselle Googlebot-osoitteelle palauttaa isäntänimen, joka päättyy googlebot.com- tai google.com-osoitteeseen. Eteenpäin suuntautuva DNS-haku kyseiselle isäntänimelle ratkaisee takaisin alkuperäiseen IP-osoitteeseen. Tämä kolmivaiheinen vahvistusketju, IP-osoite isäntänimeen IP-osoitteeseen, on kryptografisesti sidottu Googlen DNS-infrastruktuuriin eikä sitä voi väärittää ilman Googlen DNS-palvelimien vaarantamista, mikä on käytännössä mahdotonta. Google-bot-tunnistin suorittaa tämän tarkan vahvistusketjun ja palauttaa lopullisen tuloksen.
Väärennös Googlebot puolestaan on peräisin yleiskäyttöisen pilvipalvelimen infrastruktuurista, jonka kuka tahansa voi vuokrata tunniksi. Amazon Web Services, Google Cloud Platform (ironisesti), Microsoft Azure, DigitalOcean, Hetzner, OVH ja Contabo ovat yleisiä lähteitä. Käyttäjäagentin merkkijono on kopioitu sanasta sanaan todellisesta Googlebotista, usein sisältäen versionumeron ja indeksoinnin URL-muodon. Jotkut kehittyneet väärennökset jopa jäljittelevät Googlebottin pyynnön kaavoja, niiden pyyntöjä ja linkkejä seuraten tavalla, joka muistuttaa laillista indeksointia. Mutta IP-osoite paljastaa heidät joka kerta. Mikään käyttäytymisen jäljittely ei voi muuttaa sitä, että pyyntö on peräisin AS16509:stä (Amazon) AS15169:n (Google) sijaan.
Bingbot ja sen väärennökset
Microsoftin Bingbot on toiseksi eniten vääritetty indeksijä, ja sen varmennus seuraa samaa kaavaa kuin Googlebot mutta joillain tärkeillä eroilla. Todellinen Bingbot toimii Microsoftin infrastruktuurista, ja sen IP-osoitteet ratkaistaan käänteisen DNS:n kautta isäntänimiin search.msn.com-alueella. ASN-varmennus tarkistaa Microsoftin autonomisia järjestelmiä vastaan, jotka sisältävät useita ASN:iä yrityksen laajan verkon infrastruktuurin vuoksi. Varmennus on yhtä luotettava, mutta se vaatii tietoisuutta Microsoftin laajemmasta IP-kohdennuksesta verrattuna Googlen konsolidoitumpaan alueeseen.
Väärennös Bingbot palvelee samaa tarkoitusta kuin väärä Googlebot, mutta esiintyy jonkin verran pienempiä määriä, mikä heijastaa Bingin pienempää markkinaosuutta ja vastaavasti pienempää kannustinta väärittää sitä. Kuitenkin verkkosivustot, jotka optimoivat erityisesti Bingiä tai jotka palvelevat erilaista sisältöä Bingbotille, houkuttelevat suhteettoman paljon väärennöksiä. SEO-työkalut, jotka analysoivat kuinka sivu näkyy Bingin indeksijälle, käyttävät usein väärää Bingbot-käyttäjäagenttiä sivujen Bing-spesifisen version noutamiseksi. Kilpailuintohimo-palvelut tekevät samoin nähdäkseen, mitä sisältöä kilpailijat palvelevat erityisesti Microsoftin hakuinfrastruktuurille.
Tunnistusmetodologia on identtinen periaatteessa. Tarkista IP-osoite Microsoftin tunnetuille alueille. Suorita käänteinen ja eteenpäin DNS-varmennus. Vahvista ASN-vastine. Pyyntö, joka väittää olevansa Bingbot ja jonka alkuperä on Hetzner-palvelimesta Suomessa, on varmasti väärä riippumatta siitä kuinka vakuuttavasti käyttäjäagentin merkkijono on muotoiltu. Bot-tunnistus-API hoitaa tämän varmentamisen automaattisesti, tarkistaa väitetyn henkilöllisyyden todellista verkon alkuperää vastaan ja palauttaa selkeän tuomion.
ChatGPT-indeksijä ja uuden aallon AI-botit
Suurten kielimallien ilmaantuminen on luonut kokonaan uuden kategorian verkkäindeksijöistä ja täysin uuden väärennösten kategorian. OpenAI:n GPTBot indeksoi verkkoa kerätäkseen harjoitustietoja, ja sen läsnäolo on tullut yksi kiistanalaisimmista aiheista verkkojulkaisemisessa. Monet julkaisijat haluavat estää GPTBotin, jotta heidän sisältöään ei käytetä tekoälyn harjoitteluun. Toiset haluavat sallia sen toivoen suosiollista kohtelua ChatGPT:n vastauksissa. Joko tapauksessa, kyky erottaa todellinen GPTBot väärennöksistä on kriittinen minkä tahansa politiikan täytäntöönpanolle, jonka julkaisija on valinnut.
Todellinen GPTBot, kuten todellinen Googlebot, toimii tietystä joukosta IP-osoitteista, jotka liittyvät OpenAI:n infrastruktuuriin. Käyttäjäagentin merkkijono tunnistaa itsensä selkeästi, ja IP-alueet ovat julkaistu ja vastatarkistettavissa. Väärennös GPTBot, joka on levinny nopeasti ChatGPT:n käynnistämisen jälkeen, käyttää samaa käyttäjäagentin merkkijonoa mutta yhdistyy liittymättömästä infrastruktuurista. GPTBotin väärittämisen motivaatiot ovat vaihtelevia. Jotkut kaapijat käyttävät sitä koska julkaisijat, jotka ovat päättäneet sallia tekoälyn harjoitus-indeksijät, palvelevat sisältöä vapaasti kaikelle, mikä väittää olevansa GPTBot. Toiset käyttävät sitä geneerisena kattava-identiteettinä, luottaen siihen, että palvelimen ylläpitäjät tuntevat paremmin OpenAI:n IP-alueita kuin Googlen, ja siksi todennäköisemmin epäröivät vaatimusta. OpenAI-indeksijän tunnistin käsittelee tämän suoraan, varmentaa onko väitetty GPTBot-pyyntö todella peräisin OpenAI:n verkkosta.
GPTBotin lisäksi tekoälyn indeksijä-maisema laajenee nopeasti. Anthropic, Perplexity, Meta ja useat pienemmät tekoäly-yritykset operaavat kaikki verkkäindeksijöitä, joilla on vaihteleva avoimuus niiden toiminnoista. Jokainen näistä indeksijöistä voidaan väärittää, ja jokainen väärennös tuo omat vaikutuksensa riippuen siitä kuinka kohdesivusto käsittelee kyseisen indeksijän. Sivusto, joka estää kaikki tekoälyindeksijät paitsi GPTBotin, esimerkiksi luo vahvan kannustimen väärittää GPTBot erityisesti, koska se on yksi henkilöllisyys, joka palvellaan sisältöä ilman rajoituksia.
Pienemmät pelaajat ja bot-vääritysten pitkä häntä
Botekosysteemi ulottuu paljon Googlen, Bingin ja OpenAI:n yli. Yandex ylläpitää merkittävää indeksijää venäjänkieliselle verolle, ja väärät Yandex-botit ovat yleisiä sivustoilla, joissa on venäjänkielistä sisältöä tai jotka palvelevat erilaista sisältöä Yandexille. DuckDuckGon indeksijä, DuckDuckBot, vääritetään huolimatta DuckDuckGon suhteellisen pienestä markkinaosuudesta, koska sivustot, jotka suosivat yksityisyyden tietoisia käyttäjiä, antavat DuckDuckBotille usein etuoikeutetun pääsyn. Qwant, ranskalain hakukone, ja Seznam, tšekkiin hakukone, molemmat omistaa indeksijät, jotka vääritetään niiden vastaavilla aluemarkkinoilla.
Varmennusmetodologia toimii identtisesti kaikille. Jokainen laillinen indeksijä toimii tunnetusta joukosta IP-osoitteista, jotka liittyvät sen operaattorin verkon infrastruktuuriin. ASN tunnistaa verkon. Käänteinen DNS vahvistaa isäntänimen. Eteenpäin DNS vahvistaa IP-osoitteen. Tämä varmentusketju on universaalinen ja pätee riippumatta siitä mitä indeksijää tarkistetaan. Ero on vain vertailutiedoissa: mitkä ASN:t, mitkä isäntänimimuodot ja mitkä IP-alueet kuuluvat jokaiselle indeksijälle. Bot-tunnistus-API ylläpitää näitä viitetietoistoja kahdeksalle suurelle indeksijälle ja tarjoaa varmentamisen yksittäisenä API-kutsuna.
Botekosysteemin pitkä häntä sisältää myös indeksijöitä, jotka eivät väärritä ketään. Nämä ovat rehellisiä botteja. SEO-työkalut kuten Ahrefs, SEMrush ja Moz käyttävät indeksijöitä, jotka tunnistautuvat tarkasti niiden käyttäjäagentin merkkijonoissa. Hintavertailupalvelut, akateemiset tutkimusindeksijät, saavutettavuustarkistajat ja linkkivalidaattorit kaikki ilmoittavat todellisen henkilöllisyytensä. Nämä botit saattavat olla tervetulleita tai eivät missään tahansa sivustolla, mutta ainakin sivuston ylläpitäjä voi tehdä tietoisen päätöksen sallia niiden vai ei. Ongelma on erityisesti väärennöksien kanssa, bottien, jotka valehtelevat siitä ketkä he ovat saadakseen pääsyn, jota he eivät muuten saavuttaisi.
Puolustuksen rakentaminen henkilöllisyyden varmennukseen perustuen
Käytännöllinen puolustus bottien väärinnöstä vastaan on yksinkertainen kun varmentusmekanismi on paikallaan. Jokainen saapuva pyyntö, joka väittää olevan hakukoneen indeksijältä, tarkistetaan indeksijän tunnetun infrastruktuurin kanssa. Pyyntöjä, jotka läpäisevät varmentamisen, sallitaan läpi minkä tahansa etuoikeuden kanssa, jonka sivusto antaa kyseiselle indeksijälle. Pyyntöjä, jotka eivät läpäise varmentamista, joko estetään kokonaan tai käsitellään geneeriseksi liikenteeksi, johon sovelletaan sivuston normaalia nopeusrajoitusta ja pääsyn ohjaimia.
Tämä lähestymistapa on parempi kuin käyttäytymisen analyysi useista syistä. Käyttäytymisen analyysi yrittää määritellä onko vierailija botti sen perusteella kuinka se on vuorovaikutuksessa sivuston kanssa: pyynnön nopeus, navigoinnin kaavat, JavaScript-suoritus, hiiren liikkeet. Nämä signaalit ovat meluisa, tuottavat vääriä positiivisia, ja ne voidaan voittaa riittävän kehittyneillä boteilla, jotka jäljittelevät ihmisen käyttäytymistä. IP-pohjainen varmennus puolestaan tuottaa binaarisen tuloksen nolla vääriä positiivisia. Pyyntö on joko Googlen verkosta tai ei ole. Ei ole epäselvyyttä, ei kynnystä säädettävä, eikä käyttäytymisen mallia koulutettava.
Toteutus ei tarvitse olla synkronoitu jokaisen pyynnön kanssa sivustoille, joissa latentti on huolestutus. Varmennus voi toimia asynkronisesti, tulosten välimuistilla IP-osoitetta kohden. Kun IP on vahvistettu kuuluvaksi Googlebotille, kaikki myöhemmät pyynnöt kyseisestä IP-osoitteesta voidaan sallia ilman uudelleenvarmentamista määrätylle ajanjaksolle. Tämä lähestymistapa lisää vähäistä latenttia pyynnön putkilinjaan tarjoten kattavaa suojaa väärinnöstä vastaan. Välimuistin kesto heijastaa kompromissia: pidempi välimuisti tarkoittaa vähemmän API-kutsuja mutta hieman suurempaa ikkunaa, jossa aiemmin vahvistettu IP-osoite voisi teoriassa muuttaa omistajaa. Käytännössä hakukoneiden IP-kohdennukset ovat erittäin vakaat, ja välimuistin kestot 24 tuntia tai enemmän ovat turvallisia useimmissa sovelluksissa.
Identiteettipohjaisesta bottivarmennuksesta saatava tulos on puhtaampi, rehellisempi näkymä siitä, mikä todellisuudessa osuu palvelimeen. Todelliset indeksijät otetaan vastaan. Väärät indeksijät paljastetaan ja estetään. Analytiikan data heijastaa todellisuutta fiktiossa. Palvelinresurssit kohdennetaan todellisille vierailijoille ja laillisille indeksijöille valehtelijoiden sijaan. Internetbottien zoologia on monimutkainen ja jatkuvasti kehittyvä, mutta varmentamisen perusperiaate verkon alkuperän perusteella pysyy tehokkaana riippumatta siitä kuinka botekosysteemi muuttuu.
Usein kysytyt kysymykset
Kuinka voin varmentaa, että pyyntö on todella Googlebotilta?
Suorita käänteinen DNS-haku IP-osoitteelle ja vahvista, että isäntänimi päättyy googlebot.com- tai google.com-osoitteeseen. Sitten suorita eteenpäin DNS-haku kyseiselle isäntänimelle ja vahvista se ratkaistaan takaisin samaan IP-osoitteeseen. Vaihtoehtoisesti tarkista, että IP kuuluu AS15169:lle, joka on Googlen autonominen järjestelmä. Bot-tunnistus-API suorittaa kaikki nämä tarkistukset yhdessä kutsusta.
Voiko botti väärentää IP-osoitteensa näyttääkseen Googlebotilta?
IP-osoitteita ei voida väärittää TCP-yhteyksissä koska TCP-kättelynsopimus vaatii kaksisuuntaista viestintää. Botti voi väärittää käyttäjäagentin merkkijonon triviaalisesti, mutta se ei voi luoda TCP-yhteyttä vääritetyllä lähde-IP-osoitteella. Tämä on syy miksi IP-pohjainen varmennus on lopullinen kun taas käyttäjäagentin perusteinen tunnistaminen ei ole.
Mikä on ASN ja miksi se on tärkeä bottitunnistuksessa?
ASN, tai Autonomous System Number, tunnistaa yhden organisaation ylläpitämän verkon. Googlen verkko on AS15169, Microsoftin käyttää useita ASN:iä, ja OpenAI:llä on omat nimetyt alueet. Bottien IP-osoitteen tarkistaminen odotettua ASN:ää vastaan paljastaa välittömästi onko pyyntö peräisin väitetyn organisaation infrastruktuurista vai liittymättömästä tietokeskuksesta.
Pitäisikö minun estää kaikki botit, jotka eivät läpäise varmentamista?
Bottien estäminen, jotka väärittävät spesifisiä hakukonetta, on yleensä turvallista ja suositeltavaa. Kuitenkaan kaikki varmentamattomat botit eivät ole haitallisia. Jotkut ovat oikeutetut työkalut, jotka yksinkertaisesti eivät väärittää indeksijöitä. Keskeinen ero on bottien välillä, jotka valehtelevat henkilöllisyydestään, mikä tulee estää, ja bottien välillä, jotka rehellisesti tunnistautuvat, joita voidaan arvioida yksittäin.
Kuinka yleistä on bottien väärinnös tyypillisissä verkkosivustoissa?
Yleisyys vaihtelee sivuston koon ja sisällön tyypin mukaan. Sivustot, joilla on korkea verkkotunnus-auktoriteetti, arvokas sisältö tai suuri sivumäärä, houkuttelevat yleensä enemmän väärennös indeksijöitä. Teollisuuden tiedot viittaavat siihen, että bottiliikenne muodostaa kolmekymmentä viisikymmentä prosenttia kaikesta verkkoliikenteestä maailmanlaajuisesti, ja merkittävä osa siitä on väärennös liikenteeltä, joka väittää olevansa laillisia hakukoneiden indeksijöitä.
Vaikuttaako väärennös-bottien estäminen todelliseen hakukoneen indeksointiin?
Ei. Varmentukseen perustuva esto vaikuttaa vain pyyntöihin IP-osoitteista, jotka eivät kuulu väitettyyn hakukoneeseen. Todellinen Googlebot, Bingbot ja muut lailliset indeksijät läpäisevät varmentamisen ja jatkavat sivuston käyttöä normaalisti. Ainoa vaikutus on väärennöksiin.