Një Udhëzues për Fake Googlebot, Fake ChatGPT Crawler, Fake Bingbot dhe Si t'i Identifikoni

Interneti ka një problem të natyrës së gjallë. Nën sipërfaqen e aktivitetit të shfletimit njerëzor ekziston një ekosistem i plotë i programeve të automatizuara që kërkojnë, shkreptin, hetojnë dhe kërkojnë faqe interneti në masë të madhe. Disa nga këta bota janë të dobishëm. Krawleri i Google-it indekson faqet në mënyrë që ato të shfaqen në rezultatet e kërkimit. Krawleri i Bing-ut bën të njëjtën gjë për motorin e kërkimit të Microsoft. Krawleri i OpenAI mbledh të dhëna trajnimi për modelet gjuhësore. Këto krawlerë të ligjshëm identifikojnë veten nder sinqerisht, ndjekin rregullat e specifikuara në skedarët robots.txt, dhe operojnë nga infrastruktura e njohur. Por për secilin krawler të ligjshëm, ka dhjetëra falsifikime që vëshin të njëjtin etiketë emri ndërsa bëjnë diçka krejtësisht ndryshe. Ata shpallitën veten si Googlebot në vargun e tyre të agjentit përdoruesi, pretendojnë se indeksojnë faqet për kërkimin, dhe mbështeten në faktin se shumica e serverëve të uebit do t'u japin atyre trajtim preferencor bazuar në atë identitet të pretenduar. Zoologjia e këtyre boteve të internetit është aq komplekse, konkurruese dhe herë pas here e çuditshme sa edhe çdo ekosistem biologjik.

Kuptimi i këtij ekosistemi ka rëndësi për këdo që operon një faqe interneti, sepse vendimi për të besuar ose bllokuar një bot ka pasoja direkte. Bllokimi i një krawleri të vërtete të motorit të kërkimit do të thotë që faqet ndalojnë të shfaqen në rezultatet e kërkimit. Besimi në një falsifikim do të thotë të lejosh një shkrepës, një mjet inteligjence konkurruese, ose një aktor keqdoesës të konsumojë burime serveri ndërsa pretendon të ofrojë vlerë. Aftësia për të dalluar midis krawlerëve realë dhe të rremë nuk është një ushtrim teorik i sigurimit. Shtë një domosdoshmëri praktike që ndikon në kostot e gjerësisë së brezit, performancën e serverit, saktësinë e analizave dhe mbrojtjen e përmbajtjes. API-ja e zbulimit të bot ekziston pikërisht për këtë qëllim, duke ofruar verifikimin definitiv të identitetit të krawlerit bazuar në gjënë e vetme që nuk mund të falsifikohet: infrastruktura e rrjetit nga e cila lidhet bota.

Googlebot është krawleri më i falsifikuar në internet, dhe arsyet janë të qarta. Faqet interneti i japin Googlebot privilegje të veçanta. Kufizimet e përqindjeve relaksoheshin. Muret e pagimit hiqen. Përmbajtja që është e fshehur pas paraqitjes JavaScript paraqitet paraprakisht posaçërisht për krawlerin e Google. Rregullat e Robots.txt shpesh lejojnë në mënyrë eksplicite aksesin e Googlebot në seksionet që janë të kufizuara për krawlerë të tjerë. Duke pretenduar se është Googlebot, një krawler i rremë trashëgon të gjitha këto privilegje pa fituar ndonjë prej tyre. Faqja interneti shërben përmbajtjen e saj më të mirë, përgjigjet më të shpejta dhe faqet më të plota atij që beson se është infrastruktura e indeksimit të Google, ndërsa në realitet marrësi është një shkrepës që operon nga një server i marrë me qira në një qendër të dhënash.

Googlebot i vërtete është i identifikueshëm me siguri absolute. Operon ekskluzivisht nga adresat IP brenda sistemit autonom të Google, AS15169. Një kërkesë e përsërit DNS në ndonjë adresë IP të vërtete të Googlebot kthen një emri hosti që përfundon me googlebot.com ose google.com. Një kërkesë përpara DNS në atë emra hosti zgjidh përsëri në adresën IP origjinale. Kjo zinxhir verifikimi tre-hapash, IP në emra hosti në IP, është kriptografike e lidhur me infrastrukturën DNS të Google dhe nuk mund të falsifikohet pa komprometuar serverët DNS të Google, e cila është praktikisht e pamundur. Zbulimi i Google bot kryen këtë zinxhir verifikimi ekzakt dhe kthen një rezultat definitiv.

Fake Googlebot, nga ana tjetër, origjinal nga infrastruktura e përqendësimet e qëllimit të përgjithshëm që kushdo mund të marrë me qira për orë. Amazon Web Services, Google Cloud Platform (në mënyrë ironike), Microsoft Azure, DigitalOcean, Hetzner, OVH, dhe Contabo janë origjina të zakonshme. Vargu i agjentit përdoruesi kopjohet fjalë për fjalë nga Googlebot i vërtete, shpesh duke përfshirë numrin e versionit dhe formatin e URL-it të kërkimit. Disa falsifikim të sofistikuar madje imitojnë modelet e kërkimit të Googlebot, hapësirën e kërkesave të tyre dhe ndjekin lidhjet në një model që ngjason me krawlimin e ligjshëm. Por adresa IP i zbulon ata çdo herë. Asnjë sasi e imitimit sjelljeje nuk mund të ndryshojë faktin se kërkesa origjinal nga AS16509 (Amazon) në vend të AS15169 (Google).

Bingbot i Microsoft është krawleri i dytë më i falsifikuar zakonisht, dhe verifikimi i tij ndjek një model të ngjashëm me Googlebot por me disa dallime të rëndësishme. Bingbot i vërtete operon nga infrastruktura e Microsoft, dhe adresat e tij IP zgjidhen përmes DNS të kundërt në emrat e hostit brenda domenit search.msn.com. Verifikimi i ASN kontroller kundër sistemeve autonome të Microsoft, i cili përfshin disa ASN për shkak të infrastrukturës së gjerë të rrjetit të kompanisë. Verifikimi është njësoj i besueshëm por kërkon vetëdije të shpërndarjes më të gjerë të IP të Microsoft në krahasim me gamën më të konsoliduar të Google.

Fake Bingbot shërben shumë të njëjtat qëllime si Fake Googlebot por shfaqet në vëllime disi më të ulëta, që pasqyron pjesën e tregut më të vogël të Bing dhe inkentivën përkatëse më të vogël për të përfshirë atë. Megjithatë, faqet interneti që specifike optimizojnë për Bing ose që shërbejnë përmbajtje ndryshe në Bingbot tërheqin falsifikim disproporcional. Mjetet SEO që analizojnë se si një faqe shfaqet në krawlerin e Bing shpesh përdorin agjentë të rremë të Bingbot për të marrë versionin e karakteristikave të Bing të faqeve. Shërbimet e inteligjencës konkurruese bëjnë të njëjtën gjë për të parë se çfarë përmbajtjeje konkurrentët shërbejnë posaçërisht në infrastrukturën e kërkimit të Microsoft.

Metodologjia e zbulimit është identike në parim. Kontrolloni adresën IP kundër diapazoneve të njohura të Microsoft. Kryeni verifikimin e kundërt dhe përpara DNS. Konfirmoni se ASN përputhet. Një kërkesë që pretendohej se është Bingbot që origjinal nga një server Hetzner në Finlandë është e rremë me siguri absolute, pavarësisht se sa bindëse është vargu i agjentit përdoruesi. API-ja e zbulimit të bot ndalon këtë verifikim automatikisht, duke kontrolluar identitetin e pretenduar kundër origjinës aktuale të rrjetit dhe duke u kthyer një vendim të qartë.

Shfaqja e modeleve gjuhësore të mëdha ka krijuar një kategorisht krejtësisht të ri të web krawlerëve dhe një kategorisht krejtësisht të ri të përfshirjes. GPTBot i OpenAI këtej internetin për të mbledhur të dhëna trajnimi, dhe prania e tij është bërë një nga temat më kontroverse në botimin në ueb. Shumë botuesit duan ta bllokojnë GPTBot për të parandaluar përmbajtjen e tyre nga të përdorur për trajnimin AI. Të tjerat duan ta lejojnë atë, shpresë për trajtim të favorshëm në përgjigjet e ChatGPT. Në cilin rast, aftësia për të dalluar GPTBot i vërtete nga versionet e rremë është kritike për zbatimin e politikës që botuesi ka zgjedhur.

GPTBot i vërtete, si Googlebot i vërtete, operon nga një set specifik i adresave IP të lidhura me infrastrukturën e OpenAI. Vargu i agjentit përdoruesi identifikohet qartë, dhe diapazoni i IP-it publikohen dhe janë të verifikueshëm. Fake GPTBot, i cili ka shumanuar me shpejtësi që nga nisja e ChatGPT, përdor të njëjtin vargu të agjentit përdoruesi por lidhet nga infrastruktura e palidhur. Motivimet për përfshirjen e GPTBot janë të ndryshme. Disa shkrepëse e përdorin atë sepse botuesit që kanë vendosur të lejojnë krawlerët e trajnimit AI do të shërbejnë përmbajtje lirisht në çdo gjë që pretendohej se është GPTBot. Të tjerat e përdorin atë si identitet i përgjithshëm i mbulimit, duke u mbështetur në supozimin se administratorët e serverit janë më pak të njohur me diapazoni i IP të OpenAI sesa me të Google dhe për këtë arsye më pak të ngjeshur për të verifikuar pretendimet. Zbulimi i krawlerit të OpenAI adreson këtë drejtpërdrejt, duke verifikuar nëse një kërkesë e pretenduar GPTBot në fakt origjinal nga rrjeti i OpenAI.

Më përtej GPTBot, peisazhi i krawlerëve AI zgjerojnë me shpejtësi. Anthropic, Perplexity, Meta dhe shumë kompani më të vogla AI të gjithë operojnë web krawlerë me shkallë të ndryshme të transparencës rreth aktiviteteve të tyre. Secili nga këta krawlerë mund të falsifikohet, dhe secila falsifikim mban implikimet e tij të veta në varësi të mënyrës se si faqja e synuar e trajtojnë atë krawler të veçantë. Një faqe që bllokon të gjithë krawlerët AI përveç GPTBot, për shembull, krijon një stimulus të fortë për shkrepësit të përfshijnë GPTBot posaçërisht, sepse ajo është identiteti i vetëm që do të shërbejë përmbajtjen pa kufizim.

Ekosistemi i bot përshkohet larg përtej Google, Bing dhe OpenAI. Yandex operon një krawler të rëndësishëm për uebë në gjuhën ruse, dhe bota të rremë Yandex janë të zakonshme në faqet me përmbajtje në gjuhën ruse ose që shërbejnë posaçërisht përmbajtje ndryshe në Yandex. Krawleri i DuckDuckGo, DuckDuckBot, përfshirjet pavarësisht të pjesës së vogël të tregut të DuckDuckGo, sepse faqet që përballojnë përdoruesit me vetëdije për privatësinë shpesh japin aksesin preferencial të DuckDuckBot. Qwant, motori i kërkimit francez, dhe Seznam, motori i kërkimit çek, të dy kanë krawlerë që falsifikohen në treget e tyre rajonale përkatëse.

Metodologjia e verifikimit punon në mënyrë identike për të gjithë ata. Secili krawler i ligjshëm operon nga një set i njohur i adresave IP të lidhura me infrastrukturën e rrjetit të operatorit. ASN identifikohet në rrjet. DNS i kundërt konfirmon emrin e hostit. Forward DNS konfirmon IP-in. Kjo zinxhir verifikimi është universal dhe zbatohet pavarësisht ndaj krawlerit të veçantë që kontrollohej. Dallimi është vetëm në të dhënat e referencës: cilat ASN, cilat modele emra hosti, dhe cilat diapazoni IP i përkasin secilit krawler. API-ja e zbulimit të bot mirëmban këto komplekse të dhënash referencë për tetë krawlerë kryesorë dhe ofron verifikimin si një thirrje të vetme API.

Bishta e gjata e ekosistemit të bot përfshin gjithashtu krawlerë që nuk përfshijnë këdo se cili. Këta janë bota të ndershta. Mjetet SEO si Ahrefs, SEMrush dhe Moz operojnë krawlerë që identifikojnë veten me saktësi në vargun e tyre të agjentit përdoruesi. Shërbimet e krahasimit të çmimeve, krawlerët e kërkimit akademik, kontrolluesit e aksesueshmërisë dhe valuesit e lidhjes të gjithë shpallitën identitetin e tyre të vërtetë. Këta bota mund të jenë ose nuk mund të jenë mirëpritur në ndonjë faqe të caktuar, por të paktën operatori i faqes interneti mund të marrë një vendim të informuar në lidhje me nëse t'i lejojnë ato. Problemi është posaçërisht me falsifikuesit, bota që gënjejnë rreth kush janë ata për të marrë aksesin e tyre nuk do të merrnin në ndryshe.

Mbrojtja praktike kundër falsifikimit të bot është e drejtë pas mekanizmi i verifikimit në vend. Secila kërkesë ardhje që pretendon të jetë nga një krawler i motorit të kërkimit kontrollohet kundër infrastrukturës të njohur të krawlerit. Kërkesëte që kalojnë verifikimin janë lejuar të kalojnë me çfarëdo privilegjeve që faqja i jep atij krawleri. Kërkesëte që dështojnë verifikimin janë ose bllokuar plotësisht ose trajtohen si trafik gjenerik i nënshtrohen limiteve të normës standarde të faqes dhe kontrolleve të aksesit.

Ky qasje është superior ndaj analizës sjelljore për disa arsye. Analiza sjelljore përpiqet të përcaktojë nëse një vizitor është një bot bazuar në se si ai ndërvepron me faqen: shkalla e kërkesës, modelet e navigimit, ekzekutimi JavaScript, lëvizjet e miut. Këta sinjale janë zhurmë, gjenerojnë pasaktësi të rremë dhe mund të mposhtojnë nga bota shumë të sofistikuara që imitojnë sjelljen njerëzore. Verifikimi i bazuar në IP, nga ana tjetër, prodhon një rezultat binar me zero pasaktësi të rremë. Një kërkesë ose vjen nga rrjeti i Google ose nuk bën. Nuk ka dyfytyri, asnjë përmasat për të rregulluar dhe asnjë model sjelljeje për të trajnuar.

Implementimi nuk duhet të jetë sinkron me secilën kërkesë për faqet ku latensia është e shqetësimshme. Verifikimi mund të ekzekutohet në mënyrë asinkron, me rezultatet e memorizuara sipas adresës IP. Pas verifikimit të një IP si përkatëse te Googlebot, të gjitha kërkesëte pasuese nga atë IP mund të lejohen pa ri-verifikim për një periudhë të konfigurushme. Ky qasje shton neglizhencën e latencës në tubacionin e kërkesës ndërsa ofroi mbrojtje gjithëpërfshirëse kundër falsifikimit. Periudha e memorizimit pasqyron një shkëmbim: memorizimi më i gjatë do të thotë më pak thirrje API por një dritare dukshëm më e madhe ku një IP i verifikuar më parë mund të teorike të ndryshoje pronësinë. Në praktikë, shpërndarjet e IP të motorit të kërkimit janë jashtëzakonisht të qëndrueshme, dhe koha i memorizimit prej njëzet katër orash ose më shumë janë të sigurta për shumicën e aplikacioneve.

Rezultati i zbatimit të verifikimit të bot të bazuar në identitet është një pamje më e pastër dhe më e sinqertë e asaj që në të vërtetë po godet serverin. Krawlerë i vërtete pranohen. Krawlerë i rremë zbulohen dhe bllokojnë. Të dhënat e analizave pasqyrojnë realitetin në vend të fikcionit. Burimet e serverit janë ndarë në vizitorë realë dhe krawlerë të ligjshëm në vend të të mbetjes në falsifikuesit. Zoologjia e boteve të internetit është komplekse dhe vazhdimisht në evolucion, por parimi themelor i verifikimit sipas origjinës së rrjetit mbetet efektiv pavarësisht se si ekosistemi i bot ndryshon.

Si mund të verifikoj nëse një kërkesë është në të vërtetë nga Googlebot?

Kryeni një kërkesë të kundërt DNS në adresën IP dhe konfirmoni se emri i hostit përfundon me googlebot.com ose google.com. Pastaj bëni një kërkesë përpara DNS në atë emra hosti dhe konfirmoni se zgjidhet përsëri në të njëjtën IP. Alternatively, kontrolloni se IP i përket AS15169, i cili është sistemi autonom i Google. API-ja e zbulimit të bot kryen të gjitha këto kontrolle në një thirrje të vetme.

A mund ta falsifikojë një bot adresën IP të tij për të shfaqur si Googlebot?

Adresat IP nuk mund të falsifikohen për lidhjet TCP sepse drejtshkrimi TCP kërkon komunikimin me dy drejtime. Një bot mund të falsifikojë një vargu të agjentit përdoruesi në mënyrë banale, por nuk mund të vendosë një lidhje TCP me një adresë burimi të falsifikuar. Ky është arsyeja pse verifikimi i bazuar në IP është definitiv ndërsa identifikimi i bazuar në agjentit përdoruesi nuk është.

Çfarë është një ASN dhe pse ka rëndësi për zbulimin e bot?

Një ASN, ose Numri i Sistemit Autonom, identifikohet në rrjet të operuar nga një organizatë e vetme. Rrjeti i Google është AS15169, Microsoft përdor disa ASN, dhe OpenAI ka diapazoni i drezignitud i vet. Kontrolli i bot IP kundër ASN i pritur menjëherë zbulohet nëse kërkesa vjen nga infrastruktura e organizatës së pretenduar ose nga një qendër të dhënash e palidhur.

A duhet të bllokojmë të gjithë bota që dështojnë verifikimin?

Bllokimi i boteve që falsifikojnë motorë të kërkimit të veçantë është në përgjithësi i sigurt dhe i rekomanduar. Megjithatë, jo të gjithë bota të neverifikuara janë keqdoesës. Disa janë mjete të ligjshme që thjesht nuk falsifikojnë krawlerë. Dallimi kryesor është midis boteve që gënjejnë rreth identiteti i tyre, i cili duhet të bllokohej, dhe boteve që në sinqertësi identifikojnë veten, e cila mund të vlerësohet individualisht.

Sa e zakonshme është falsifikimi i bot në faqet web tipike?

Përhapja varion sipas madhësisë dhe llojit të përmbajtjes. Faqet me autoritet të lartë të domenit, përmbajtje të vlefshme ose numër të madh të faqes priren të tërheqin më shumë krawlerë të rremë. Të dhënat e industrisë sugjerojnë se trafiku i bot përfiton tridhjetë deri pesëdhjetë për qind të të gjithë trafikut të uebit në botë, dhe një pjesë e rëndësishme e kësaj është trafik falsifikimi që pretendohej se janë krawlerë të ligjshëm të motorit të kërkimit.

A bllokimi i boteve të rremë përshtatet me indeksimin e motorit të kërkimit në të vërtetë?

Jo. Bllokimi bazuar në verifikim prek vetëm kërkesëte nga adresat IP të cilat nuk i përkasin motorit të kërkimit të pretenduar. Googlebot i vërtete, Bingbot dhe krawlerë të tjerë të ligjshëm kalojnë verifikimin dhe vazhdojnë të aksesojnë faqen normalisht. Ndikimi i vetëm është në falsifikuesit.

Fake GoogleBot Fake ChatGPT Crawler Fake Bing dhe Zoologjia e Boteve të Internetit