Sahte GoogleBot, Sahte ChatGPT Tarayıcısı, Sahte Bing ve İnternet Botlarının Zolojisi
İnternet bir vahşi yaşam sorununa sahip. İnsan tarama aktivitesinin yüzeyinin altında, muazzam ölçekte web sayfalarını tıklamayan, kıran, yoklayan ve talep eden otomatik programların tamamı bir ekosistem vardır. Bu botların bazıları faydalıdır. Google'ın tarayıcısı sayfaları dizine alır, böylece arama sonuçlarında görünürler. Bing'in tarayıcısı Microsoft'un arama motoru için de aynısını yapar. OpenAI'nin tarayıcısı dil modelleri için eğitim verileri toplar. Bu yasal tarayıcılar kendilerini dürüstçe tanıştırır, robots.txt dosyalarında belirtilen kuralları takip eder ve bilinen altyapıdan çalışır. Ancak her yasal tarayıcı için, tamamen farklı bir şey yaparken aynı isim etiketini giyen düzinelerce sahte vardır. Kullanıcı acentası dizesinde kendilerini Googlebot olarak duyurur, sayfaları arama için dizine aldıklarını iddia eder ve çoğu web sunucusunun bu iddia edilen kimliğe dayanarak onlara tercihli muamele vereceği gerçeğine güvenir. Bu internet botlarının zolojisi, herhangi bir biyolojik ekosistem kadar karmaşık, rekabetçi ve bazen tuhaftır.
Bu ekosistemi anlamak, bir web sitesi işleten herkes için önemlidir, çünkü bir botu güvenme veya engelleme kararı doğrudan sonuçlara sahiptir. Gerçek bir arama motoru tarayıcısını engellemek, sayfaların arama sonuçlarında görünmesinin durması anlamına gelir. Sahte olana güvenmek, bir scraper, rekabetçi istihbarat aracı veya kötü niyetli bir aktörün değer sağladığını iddia ederken sunucu kaynaklarını tüketmesine izin vermek anlamına gelir. Gerçek ve sahte tarayıcılar arasında ayrım yapabilme yeteneği teorik bir güvenlik alıştırması değildir. Bant genişliği maliyetleri, sunucu performansı, analitik doğruluğu ve içerik korumasını etkileyen pratik bir gerekliliktir. Bot algılama API'si tam olarak bu amaç için vardır ve taklit edilemeyen bir şeye dayalı tarayıcı kimliğinin kesin doğrulanmasını sağlar: botun bağlandığı ağ altyapısı.
Sahte Googlebot'un Türleri
Googlebot, internetin en çok taklit edilen tarayıcısıdır ve nedenleri bellidir. Web siteler rutin olarak Googlebot'a özel ayrıcalıklar verir. Hız sınırlamaları gevşetilir. Paywalllar kaldırılır. JavaScript işleme arkasında gizlenen içerik, özellikle Google'ın tarayıcısı için önceden işlenir. Robots.txt kuralları, diğer tarayıcılar için kısıtlanan bölümlere Googlebot erişimini açıkça izin verir. Googlebot olduğunu iddia ederek, sahte bir tarayıcı bunların hiçbirini kazanmadan tüm bu ayrıcalıkları devralır. Web sitesi en iyi içeriğini, en hızlı yanıtlarını ve en eksiksiz sayfalarını Google'ın dizin oluşturma altyapısı olduğuna inandığı şeye sunur, oysa alıcı gerçekten bir veri merkezinde kiralanan sunucudan çalışan bir scraperdır.
Gerçek Googlebot kesinlikle tanımlanabilir. Yalnızca Google'ın otonom sistemleri olan AS15169 içindeki IP adreslerinden çalışır. IP adresinde ters DNS araması, googlebot.com veya google.com ile biten bir ana bilgisayar adını döndürür. O ana bilgisayar adında ileri DNS araması, orijinal IP adresine geri çözülür. Bu üç adımlı doğrulama zinciri, IP'den ana bilgisayar adına IP'ye, Google'ın DNS altyapısına şifreli olarak bağlıdır ve Google'ın DNS sunucularını tehlikeye atmadan taklit edilemez, bu da etkili bir şekilde imkansızdır. Google bot algılayıcı bu tam doğrulama zincirini gerçekleştirir ve kesin bir sonuç döndürür.
Sahte Googlebot, aksine, herkesin saatler başında kiralayabileceği genel amaçlı bulut altyapısından kaynaklanır. Amazon Web Services, Google Cloud Platform (ironik olarak), Microsoft Azure, DigitalOcean, Hetzner, OVH ve Contabo yaygın kaynaklardır. Kullanıcı acentası dizesi, gerçek Googlebot'tan sözcüğü sözcüğe kopyalanır, genellikle sürüm numarasını ve tarama URL'si biçimini içerir. Bazı karmaşık sahteler, Googlebot'un istek desenleriyle aynı şekilde taklit ederek, isteklerini ve bağlantıları yasal tarama ile benzer bir desende takip ederek aralıklandırırlar. Ancak IP adresi onları her zaman ortaya koymaz. Hiçbir davranış taklidi, isteğin AS15169'dan (Google) yerine AS16509'dan (Amazon) kaynaklandığı gerçeğini değiştiremez.
Bingbot ve Taklit Edenler
Microsoft'un Bingbot'u, en çok taklit edilen ikinci tarayıcıdır ve doğrulanması Googlebot'a benzer bir desen izler, ancak bazı önemli farklılıklar vardır. Gerçek Bingbot, Microsoft'un altyapısından çalışır ve IP adresleri ters DNS aracılığıyla search.msn.com etki alanı içindeki ana bilgisayar adlarına çözülür. ASN doğrulaması, şirketin kapsamlı ağ altyapısı nedeniyle birkaç ASN'yi içeren Microsoft'un otonom sistemlerine karşı kontrol eder. Doğrulama eşit derecede güvenilirdir, ancak Google'ın daha birleştirilmiş aralığına kıyasla Microsoft'un daha geniş IP tahsisinin farkında olmayı gerektirir.
Sahte Bingbot, Googlebot sahte olarak aynı amaçlara hizmet eder, ancak biraz daha düşük hacimlerde görünür, Bing'in daha küçük pazar payını ve buna karşılık gelen daha küçük taklit etme teşvikini yansıtır. Bununla birlikte, özellikle Bing için optimize edilen veya Bingbot'a farklı içerik sunan web siteleri, orantısız olmayan taklidi çekmiştir. Bir sayfanın Bing'in tarayıcısına nasıl göründüğünü analiz eden SEO araçları, genellikle Bing'e özgü sayfa sürümünü almak için sahte Bingbot kullanıcı acentaları kullanır. Rekabetçi istihbarat hizmetleri, rakiplerin özellikle Microsoft'un arama altyapısına ne içerik sunduğunu görmek için aynısını yapar.
Algılama metodolojisi ilke olarak aynıdır. IP adresini Microsoft'un bilinen aralıklarına karşı kontrol edin. Ters ve ileri DNS doğrulamasını gerçekleştirin. ASN'nin eşleştiğini doğrulayın. Bingbot olduğunu iddia eden, Finlandiya'daki bir Hetzner sunucusundan kaynaklanan bir istek, kullanıcı acentası dizesi ne kadar ikna edici olursa olsun, kesinlikle sahtedir. Bot algılama API'si bu doğrulamayı otomatik olarak işler, talep edilen kimliği gerçek ağ kaynağına karşı kontrol eder ve net bir sonuç döndürür.
ChatGPT Tarayıcısı ve Yapay Zeka Botlarının Yeni Dalgası
Büyük dil modellerinin ortaya çıkışı, tamamen yeni bir web tarayıcı kategorisi ve tamamen yeni bir taklidi kategorisi oluşturmuştur. OpenAI'nin GPTBot web'i tıklamayan ve varlığı, web yayıncılığında en tartışmalı konulardan biri haline gelmiştir. Birçok yayıncı, içeriklerinin yapay zeka eğitimi için kullanılmasını önlemek için GPTBot'u engellemek ister. Diğerleri, ChatGPT yanıtlarında olumlu muamele umuduyla buna izin vermeyi ister. Her durumda, gerçek GPTBot'u sahte sürümlerden ayırt etme yeteneği, yayıncının seçtiği hangi politikayla ilgili olursa olsun, bu politikayı uygulamak için kritiktir.
Gerçek GPTBot, gerçek Googlebot gibi, OpenAI'nin altyapısı ile ilişkili belirli IP adreslerinden çalışır. Kullanıcı acentası dizesi kendisini açıkça tanımlar ve IP aralıkları yayınlanır ve doğrulanabilir. ChatGPT'nin başlatılmasından bu yana hızla çoğalan sahte GPTBot, aynı kullanıcı acentası dizesini kullanır ancak bağlantısız altyapıdan bağlanır. GPTBot'u taklit etme motivasyonları çeşitlidir. Bazı scraperlı yapay zeka eğitim tarayıcılarına izin vermeye karar veren yayıncılar, GPTBot olduğunu iddia eden herhangi bir şeye içeriği serbestçe sunacağından bunları kullanırlar. Diğerleri bunu genel bir kapak kimliği olarak kullanırlar, sunucu yöneticilerinin Google'ın aralıklarından daha az OpenAI'nin IP aralıklarına aşina oldukları ve bu nedenle talepsi doğrulama olasılığının daha az olması varsayımına banka yapmazlar. OpenAI tarayıcı algılayıcı bunu doğrudan ele alır ve iddia edilen GPTBot isteğinin gerçekten OpenAI'nin ağından kaynaklanıp kaynaklanmadığını doğrular.
GPTBot'un ötesinde, yapay zeka tarayıcı ortamı hızla genişlemektedir. Anthropic, Perplexity, Meta ve çok sayıda daha küçük yapay zeka şirketi, faaliyetleri hakkında değişen saydamlık derecelerine sahip web tarayıcıları işletir. Bu tarayıcıların her biri taklit edilebilir ve her taklit, hedef sitenin bu özel tarayıcıyı nasıl ele aldığına bağlı olarak kendi çıkarımlarını taşır. Örneğin, GPTBot dışında tüm yapay zeka tarayıcılarını engelleyen ancak tarayıcı boyunca GPTBot'un bloke olmadan yapılan bir site, scraperlerin özellikle GPTBot kimliğini taklit etmesi için güçlü bir teşvik oluşturur, çünkü bu kısıt olmadan sunulan içerik içeriğin kullanılmasına izin verilecek olan tek kimliktir.
Küçük Oyuncular ve Bot Taklidinin Uzun Kuyruk
Bot ekosisteemi Google, Bing ve OpenAI'nin çok ötesine uzanır. Yandex, Rusça web için önemli bir tarayıcı işletir ve Rus dilinde içeriğe sahip veya Yandex'e özel farklı içerik sunan sitelerde sahte Yandex botları yaygındır. DuckDuckGo'nun tarayıcısı DuckDuckBot, DuckDuckGo'nun nispeten küçük pazar payına rağmen taklit edilir, çünkü gizlilik sahibi kullanıcılara hitap eden siteler genellikle DuckDuckBot'a tercihli erişim veri. Qwant, Fransız arama motoru ve Seznam, Çek arama motoru, her ikisi de kendi bölgesel pazarlarında taklit edilen tarayıcılara sahiptir.
Doğrulama metodolojisi tüm bunlar için aynı şekilde çalışır. Her yasal tarayıcı, işletmecisinin ağ altyapısı ile ilişkili bilinen bir IP adresleri kümesinden çalışır. ASN ağı tanımlar. Ters DNS ana bilgisayar adını doğrular. İleri DNS, IP'yi doğrular. Bu doğrulama zinciri evrenseldir ve kontrol edilen belirli tarayıcıdan bağımsız olarak uygulanır. Fark, yalnızca referans verilerinde: hangi ASN'ler, hangi ana bilgisayar adı desenleri ve hangi IP aralıkları her tarayıcıya ait. Bot algılama API'si sekiz büyük tarayıcı için bu referans veri kümelerini saklar ve doğrulamayı tek bir API çağrısı olarak sağlar.
Bot ekosisteminin uzun kuyruk, kimse taklit etmeyen tarayıcıları da içerir. Bunlar dürüst botlardır. Ahrefs, SEMrush ve Moz gibi SEO araçları, kullanıcı acentası dizelerinde kendilerini doğru şekilde tanımlayan tarayıcıları işletir. Fiyat karşılaştırma hizmetleri, akademik araştırma tarayıcıları, erişilebilirlik kontrol edenler ve bağlantı doğrulayıcılar tümü gerçek kimliklerini duyurur. Bu botlara herhangi bir sitede hoş geldiniz olup olmayacağı belirsizdir, ancak en azından site operatörü bunlara izin verip vermeyeceğine dair bilinçli bir karar alabilir. Sorun özellikle sahte olanlar, erişim elde etmek için kimliklerini yalan söyleyenler hakkındadır.
Kimlik Doğrulamaya Dayalı Bir Savunma Oluşturma
Bot taklidine karşı pratik savunma, doğrulama mekanizması yerinde olduğunda basittir. Bir arama motoru tarayıcısından olduğunu iddia eden her gelen istek, tarayıcının bilinen altyapısına karşı kontrol edilir. Doğrulamayı geçen isteklere, sitenin bu tarayıcıya verdiği ayrıcalıklarla birlikte geçiş verilir. Doğrulama başarısız olan istekler, tamamen engellenir veya sitenin standart hız sınırlaması ve erişim kontrollerine tabi genel trafik olarak ele alınır.
Bu yaklaşım davranış analizi için birkaç nedenden dolayı üstündür. Davranış analizi, bir ziyaretçinin sitenin nasıl etkileşime gireceğine dayanarak bir bot olup olmadığını belirlemeye çalışır: istek hızı, tarama desenleri, JavaScript yürütmesi, fare hareketleri. Bu sinyaller gürültülüdür, yanlış pozitif üretir ve insan davranışını taklit eden yeterince karmaşık botlar tarafından kapatılabilir. IP tabanlı doğrulama, aksine, sıfır yanlış pozitif ile bir ikili sonuç üretir. Bir istek Google'ın ağından gelir veya gelmez. Bir belirsizlik yoktur, ayarlanacak eşik yoktur ve eğitim için davranış modeli yoktur.
Uygulama, gecikme bir sorun olduğu siteler için her istek ile senkronize olması gerekmez. Doğrulama uyumsuz olarak çalışabilir, sonuçlar IP adresi başına önbelleğe alınır. Bir IP, Googlebot'a ait olarak doğrulandığında, sonraki tüm istekler yapılandırılabilir bir süre boyunca yeniden doğrulama yapılmadan bu IP'den izin verilebilir. Bu yaklaşım, isteği ardışık düzenine ihmal edilebilir gecikme ekler ve taklit etmeye karşı kapsamlı koruma sağlar. Önbellek süresi bir uzlaşma yansıtır: daha uzun önbelleğe alma, daha az API araması anlamına gelir, ancak daha önce doğrulanan bir IP'nin teorik olarak mülkiyeti değiştirebilecek biraz daha büyük bir pencere. Uygulamada, arama motoru IP tahsisleri son derece istikrarlıdır ve çoğu uygulamalar için yirmi dört saat veya daha fazla önbellek süreleri güvenlidir.
Kimlik tabanlı bot doğrulamayı uygulamanın sonucu, aslında sunucuyu vuran şeylerin daha temiz, daha dürüst bir görünümüdür. Gerçek tarayıcılar karşılanırlar. Sahte tarayıcılar ortaya çıkarılır ve engellenir. Analitik verileri, kurgu yerine gerçekliği yansıtır. Sunucu kaynakları, sahte olanlar üzerinde boşa harcananın yerine gerçek ziyaretçilere ve yasal tarayıcılara tahsis edilir. İnternet botlarının zolojisi karmaşıktır ve sürekli gelişmektedir, ancak ağ kökenine göre doğrulama temel ilkesi, bot ekosistemsinin nasıl değiştiğinden bağımsız olarak etkili kalır.
Sık Sorulan Sorular
Bir isteğin gerçekten Googlebot'tan olduğunu nasıl doğrularım?
IP adresinde ters DNS araması gerçekleştirin ve ana bilgisayar adının googlebot.com veya google.com ile bittiğini doğrulayın. Daha sonra o ana bilgisayar adında ileri bir DNS araması yapın ve aynı IP'ye geri çözüldüğünü doğrulayın. Alternatif olarak, IP'nin Google'ın otonom sistemi olan AS15169'e ait olduğunu kontrol edin. Bot algılama API'si tüm bu kontrolleri tek bir çağrıda gerçekleştirir.
Bir bot, Googlebot olarak görünmek için IP adresini taklit edebilir mi?
IP adresler TCP bağlantıları için taklit edilemez, çünkü TCP el sıkışma çift yönlü iletişim gerektirir. Bir bot, kullanıcı acentası dizesini kolayca taklit edebilir, ancak istatistiksel bir kaynak IP'si ile bir TCP bağlantısı kuramaz. Bu nedenle IP tabanlı doğrulama kesin, kullanıcı acentası tabanlı kimlik tanıma ise değildir.
ASN nedir ve bot algılama için neden önemlidir?
ASN veya Otonom Sistem Numarası, tek bir kuruluş tarafından işletilen bir ağı tanımlar. Google'ın ağı AS15169'dur, Microsoft'un birkaç ASN'yi kullanır ve OpenAI'nin kendi belirlenen aralıkları vardır. Bir bot'un IP'sini beklenen ASN'ye karşı kontrol etmek, isteğin talep edilen kuruluşun altyapısından mı yoksa ilişkisiz bir veri merkezinden mi geldiğini hemen ortaya çıkarır.
Doğrulamada başarısız olan tüm botları engellemeli miyim?
Belirli arama motorlarını taklit eden botları engelleme genellikle güvenli ve tavsiye edilir. Ancak, doğrulanan tüm botlar kötü niyetli değildir. Bazıları, tarayıcıları taklit etmeyen yasal araçlardır. Temel fark, kimliklerini yalan söyleyen botlar arasında (engellenmesi gereken) ve kendilerini dürüstçe tanımlayan ve bireysel olarak değerlendirilebilecek botlar arasındadır.
Tipik web sitelerinde bot taklidinin ne kadar yaygın olması?
Yaygınlık, site boyutu ve içerik türüne göre değişir. Yüksek etki alanı otoritesi, değerli içerik veya büyük sayfa sayılarına sahip siteler daha fazla sahte tarayıcı çekmektedir. Endüstri verileri, bot trafiğinin küresel olarak tüm web trafiğinin yüzde otuz ila elli oranında hesaplandığını ve bunun önemli bir kısmının yasal arama motoru tarayıcıları olduğunu iddia eden taklit trafiği olduğunu göstermektedir.
Sahte botları engellemek gerçek arama motoru dizinlemesini etkiler mi?
Hayır. Doğrulama tabanlı engelleme, yalnızca talep edilen arama motoruna ait olmayan IP adreslerinden gelen istekleri etkiler. Gerçek Googlebot, Bingbot ve diğer yasal tarayıcılar doğrulamayı geçer ve normal olarak siteye erişmeye devam ederler. Tek etki, sahte olanlar üzerinedir.