Googlebot Palsu, Penggemar ChatGPT Palsu, Bing Palsu dan Zoologi Bot Internet
Internet memiliki masalah satwa liar. Di bawah permukaan aktivitas browsing manusia terdapat seluruh ekosistem program otomatis yang merangkak, mengikis, menyelidiki, dan meminta halaman web dalam skala besar. Beberapa bot ini bermanfaat. Penggemar Google mengindeks halaman sehingga muncul di hasil pencarian. Penggemar Bing melakukan hal yang sama untuk mesin pencari Microsoft. Penggemar OpenAI mengumpulkan data pelatihan untuk model bahasa. Penggemar asli ini mengidentifikasi diri mereka dengan jujur, mengikuti aturan yang ditentukan dalam file robots.txt, dan beroperasi dari infrastruktur yang dikenal. Tetapi untuk setiap penggemar asli, ada lusinan penyamar yang mengenakan papan nama yang sama sambil melakukan sesuatu yang sama sekali berbeda. Mereka mengumumkan diri sebagai Googlebot dalam string user agent mereka, mengklaim untuk mengindeks halaman untuk pencarian, dan bergantung pada fakta bahwa sebagian besar server web akan memberi mereka perlakuan istimewa berdasarkan identitas yang diklaim. Zoologi bot internet ini sama kompleks, kompetitif, dan sesekali aneh dengan ekosistem biologis apa pun.
Memahami ekosistem ini penting bagi siapa pun yang mengoperasikan situs web, karena keputusan untuk mempercayai atau memblokir bot memiliki konsekuensi langsung. Memblokir penggemar mesin pencari asli berarti halaman berhenti muncul di hasil pencarian. Mempercayai yang palsu berarti memungkinkan scraper, alat intelijen kompetitif, atau aktor berbahaya menghabiskan sumber daya server sambil berpura-pura memberikan nilai. Kemampuan untuk membedakan antara penggemar asli dan palsu bukanlah latihan keamanan teoretis. Ini adalah keharusan praktis yang mempengaruhi biaya bandwidth, kinerja server, akurasi analitik, dan perlindungan konten. API deteksi bot ada justru untuk tujuan ini, memberikan verifikasi definitif dari identitas penggemar berdasarkan satu hal yang tidak dapat dipalsukan: infrastruktur jaringan tempat bot terhubung.
Spesies Googlebot Palsu
Googlebot adalah penggemar yang paling banyak disamar di internet, dan alasannya jelas. Situs web secara rutin memberikan Googlebot hak istimewa khusus. Batasan kecepatan dilonggarkan. Paywall diangkat. Konten yang tersembunyi di balik rendering JavaScript pra-dirender khusus untuk penggemar Google. Aturan robots.txt sering secara eksplisit memungkinkan akses Googlebot ke bagian yang dibatasi untuk penggemar lain. Dengan mengklaim sebagai Googlebot, penggemar palsu mewarisi semua hak istimewa ini tanpa mendapatkannya. Situs web melayani konten terbaiknya, respons tercepat, dan halaman paling lengkap ke apa yang ia percaya adalah infrastruktur pengindeksan Google, padahal sebenarnya penerimanya adalah scraper yang beroperasi dari server sewaan di pusat data.
Googlebot asli dapat diidentifikasi dengan pasti mutlak. Ini beroperasi secara eksklusif dari alamat IP dalam sistem otonom Google, AS15169. Pencarian DNS terbalik pada alamat IP Googlebot asli apa pun mengembalikan nama host yang berakhir dengan googlebot.com atau google.com. Pencarian DNS maju pada nama host itu diselesaikan kembali ke alamat IP asli. Rantai verifikasi tiga langkah ini, IP ke nama host ke IP, secara kriptografis terikat pada infrastruktur DNS Google dan tidak dapat dipalsukan tanpa mengkompromikan server DNS Google, yang secara efektif tidak mungkin. Pendeteksi bot Google melakukan rantai verifikasi yang tepat ini dan mengembalikan hasil yang definitif.
Googlebot palsu, sebaliknya, berasal dari infrastruktur cloud tujuan umum yang dapat disewa siapa saja per jam. Amazon Web Services, Google Cloud Platform (ironisnya), Microsoft Azure, DigitalOcean, Hetzner, OVH, dan Contabo adalah asal umum. String user agent disalin kata demi kata dari Googlebot asli, sering termasuk nomor versi dan format URL merayap. Beberapa pemalsuan canggih bahkan meniru pola permintaan Googlebot, menjarakkan permintaan mereka dan mengikuti tautan dengan cara yang menyerupai perayapan asli. Tetapi alamat IP memberi mereka pergi setiap saat. Tidak ada jumlah peniruan perilaku yang dapat mengubah fakta bahwa permintaan berasal dari AS16509 (Amazon) bukan AS15169 (Google).
Bingbot dan Penyamarnya
Bingbot Microsoft adalah penggemar kedua yang paling banyak disamar, dan verifikasinya mengikuti pola serupa dengan Googlebot tetapi dengan beberapa perbedaan penting. Bingbot asli beroperasi dari infrastruktur Microsoft, dan alamat IP-nya diselesaikan melalui DNS terbalik ke nama host dalam domain search.msn.com. Verifikasi ASN memeriksa sistem otonom Microsoft, yang mencakup beberapa ASN karena infrastruktur jaringan ekstensif perusahaan. Verifikasi sama andalnya tetapi memerlukan kesadaran tentang alokasi IP Microsoft yang lebih luas dibandingkan dengan kisaran Google yang lebih terpusat.
Bingbot palsu melayani banyak tujuan yang sama dengan Googlebot palsu tetapi muncul dalam volume yang agak lebih rendah, mencerminkan pangsa pasar Bing yang lebih kecil dan insentif yang sesuai lebih kecil untuk menyamarnya. Namun, situs web yang secara khusus dioptimalkan untuk Bing atau yang melayani konten berbeda ke Bingbot menarik penyamaran yang tidak proporsional. Alat SEO yang menganalisis bagaimana halaman muncul untuk penggemar Bing sering menggunakan agen pengguna Bingbot palsu untuk mengambil versi spesifik Bing dari halaman. Layanan intelijen kompetitif melakukan hal yang sama untuk melihat konten apa yang dilayani pesaing khususnya ke infrastruktur pencarian Microsoft.
Metodologi deteksi identik dalam prinsipnya. Periksa alamat IP terhadap rentang Microsoft yang dikenal. Lakukan verifikasi DNS terbalik dan maju. Konfirmasikan ASN cocok. Permintaan yang mengklaim sebagai Bingbot yang berasal dari server Hetzner di Finlandia pasti palsu, terlepas dari seberapa meyakinkannya string user agent dibuat. API deteksi bot menangani verifikasi ini secara otomatis, memeriksa identitas yang diklaim terhadap asal jaringan aktual dan mengembalikan verdi yang jelas.
Penggemar ChatGPT dan Gelombang Baru Bot AI
Kemunculan model bahasa besar telah menciptakan kategori penggemar web yang sepenuhnya baru dan kategori penyamaran yang sepenuhnya baru. GPTBot OpenAI merayapi web untuk mengumpulkan data pelatihan, dan kehadirannya telah menjadi salah satu topik paling kontroversial dalam penerbitan web. Banyak penerbit ingin memblokir GPTBot untuk mencegah konten mereka digunakan untuk pelatihan AI. Yang lain ingin mengizinkannya, berharap untuk perlakuan yang menguntungkan dalam respons ChatGPT. Bagaimanapun, kemampuan untuk membedakan GPTBot asli dari versi palsu sangat penting untuk menegakkan kebijakan apa pun yang telah dipilih penerbit.
GPTBot asli, seperti Googlebot asli, beroperasi dari kumpulan alamat IP tertentu yang terkait dengan infrastruktur OpenAI. String user agent mengidentifikasi dirinya dengan jelas, dan rentang IP dipublikasikan dan dapat diverifikasi. GPTBot palsu, yang telah berkembang biak dengan cepat sejak peluncuran ChatGPT, menggunakan string user agent yang sama tetapi terhubung dari infrastruktur yang tidak terkait. Motivasi untuk menyamar sebagai GPTBot bervariasi. Beberapa scraper menggunakannya karena penerbit yang telah memutuskan untuk mengizinkan penggemar pelatihan AI akan melayani konten gratis untuk apa pun yang mengklaim sebagai GPTBot. Yang lain menggunakannya sebagai identitas sampul generik, berharap pada asumsi bahwa administrator server kurang akrab dengan rentang IP OpenAI daripada dengan Google dan oleh karena itu kurang mungkin untuk memverifikasi klaim. Pendeteksi penggemar OpenAI mengatasi ini secara langsung, memverifikasi apakah permintaan GPTBot yang diklaim benar-benar berasal dari jaringan OpenAI.
Di luar GPTBot, lanskap penggemar AI berkembang dengan cepat. Anthropic, Perplexity, Meta, dan berbagai perusahaan AI yang lebih kecil semuanya mengoperasikan penggemar web dengan tingkat transparansi yang berbeda-beda tentang aktivitas mereka. Masing-masing penggemar ini dapat disamar, dan setiap penyamaran membawa implikasi tersendiri tergantung pada bagaimana situs target memperlakukan penggemar tertentu itu. Situs yang memblokir semua penggemar AI kecuali GPTBot, misalnya, menciptakan insentif kuat bagi scraper untuk menyamar sebagai GPTBot secara khusus, karena itu adalah satu-satunya identitas yang akan dilayani konten tanpa pembatasan.
Pemain Kecil dan Ekor Panjang Penyamaran Bot
Ekosistem bot melampaui Google, Bing, dan OpenAI. Yandex mengoperasikan penggemar signifikan untuk web berbahasa Rusia, dan bot Yandex palsu umum di situs dengan konten berbahasa Rusia atau yang secara khusus melayani konten berbeda ke Yandex. Penggemar DuckDuckGo, DuckDuckBot, disamar terlepas dari pangsa pasar DuckDuckGo yang relatif kecil, karena situs yang melayani pengguna yang sadar privasi sering memberikan akses istimewa DuckDuckBot. Qwant, mesin pencari Prancis, dan Seznam, mesin pencari Ceko, keduanya memiliki penggemar yang disamar di pasar regional masing-masing.
Metodologi verifikasi bekerja secara identik untuk semuanya. Setiap penggemar asli beroperasi dari kumpulan alamat IP yang dikenal terkait dengan infrastruktur jaringan operatornya. ASN mengidentifikasi jaringan. DNS terbalik mengkonfirmasi nama host. DNS maju mengkonfirmasi IP. Rantai verifikasi ini universal dan berlaku terlepas dari penggemar spesifik yang diperiksa. Perbedaannya hanya dalam data referensi: ASN mana, pola nama host mana, dan rentang IP mana yang dimiliki setiap penggemar. API deteksi bot mempertahankan kumpulan data referensi ini untuk delapan penggemar utama dan menyediakan verifikasi sebagai panggilan API tunggal.
Ekor panjang ekosistem bot juga mencakup penggemar yang tidak menyamar siapa pun sama sekali. Ini adalah bot yang jujur. Alat SEO seperti Ahrefs, SEMrush, dan Moz mengoperasikan penggemar yang mengidentifikasi diri mereka secara akurat dalam string user agent mereka. Layanan perbandingan harga, penggemar penelitian akademis, pemeriksa aksesibilitas, dan validator tautan semuanya mengumumkan identitas sejati mereka. Bot ini mungkin atau mungkin tidak diinginkan di situs mana pun, tetapi setidaknya operator situs dapat membuat keputusan berdasarkan informasi tentang apakah akan mengizinkan mereka. Masalahnya secara khusus dengan penyamaran, bot yang berbohong tentang siapa mereka untuk mendapatkan akses yang tidak akan mereka terima.
Membangun Pertahanan Berdasarkan Verifikasi Identitas
Pertahanan praktis terhadap penyamaran bot mudah sekali mekanisme verifikasi sudah ada. Setiap permintaan masuk yang mengklaim berasal dari penggemar mesin pencari diperiksa terhadap infrastruktur penggemar yang dikenal. Permintaan yang lulus verifikasi diizinkan melalui dengan hak istimewa apa pun yang diberikan situs ke penggemar itu. Permintaan yang gagal verifikasi diblokir sepenuhnya atau diperlakukan sebagai lalu lintas generik tunduk pada batasan kecepatan standar situs dan kontrol akses.
Pendekatan ini lebih baik daripada analisis perilaku karena beberapa alasan. Analisis perilaku mencoba menentukan apakah pengunjung adalah bot berdasarkan bagaimana ia berinteraksi dengan situs: tingkat permintaan, pola navigasi, eksekusi JavaScript, gerakan mouse. Sinyal ini bising, menghasilkan positif palsu, dan dapat dikalahkan oleh bot yang cukup canggih yang meniru perilaku manusia. Verifikasi berbasis IP, sebaliknya, menghasilkan hasil biner dengan nol positif palsu. Permintaan baik berasal dari jaringan Google atau tidak. Tidak ada ambiguitas, tidak ada ambang batas untuk disetel, dan tidak ada model perilaku untuk dilatih.
Implementasi tidak perlu sinkron dengan setiap permintaan untuk situs di mana latensi menjadi perhatian. Verifikasi dapat berjalan secara asinkron, dengan hasil disimpan per alamat IP. Setelah IP diverifikasi sebagai milik Googlebot, semua permintaan berikutnya dari IP itu dapat diizinkan tanpa re-verifikasi untuk periode yang dapat dikonfigurasi. Pendekatan ini menambahkan latensi yang dapat diabaikan ke saluran permintaan sambil memberikan perlindungan komprehensif terhadap penyamaran. Periode caching mencerminkan pertukaran: caching lebih lama berarti lebih sedikit panggilan API tetapi jendela yang sedikit lebih besar di mana IP yang sebelumnya diverifikasi secara teori dapat berubah kepemilikan. Dalam praktik, alokasi IP mesin pencari sangat stabil, dan durasi cache 24 jam atau lebih aman untuk sebagian besar aplikasi.
Hasil implementasi verifikasi bot berbasis identitas adalah pandangan yang lebih bersih dan lebih jujur tentang apa yang sebenarnya mengenai server. Penggemar asli disambut. Penggemar palsu terungkap dan diblokir. Data analitik mencerminkan realitas bukan fiksi. Sumber daya server dialokasikan ke pengunjung nyata dan penggemar asli bukan dibuang-buang pada penyamaran. Zoologi bot internet kompleks dan terus berkembang, tetapi prinsip fundamental verifikasi berdasarkan asal jaringan tetap efektif terlepas dari bagaimana ekosistem bot berubah.
Pertanyaan yang Sering Diajukan
Bagaimana cara saya memverifikasi apakah permintaan benar-benar dari Googlebot?
Lakukan pencarian DNS terbalik pada alamat IP dan konfirmasikan nama host berakhir dengan googlebot.com atau google.com. Kemudian lakukan pencarian DNS maju pada nama host itu dan konfirmasikan itu diselesaikan kembali ke IP yang sama. Alternatifnya, periksa bahwa IP termasuk AS15169, yang merupakan sistem otonom Google. API deteksi bot melakukan semua pemeriksaan ini dalam satu panggilan.
Bisakah bot memalsukan alamat IP-nya untuk terlihat seperti Googlebot?
Alamat IP tidak dapat dipalsukan untuk koneksi TCP karena jabat tangan TCP memerlukan komunikasi dua arah. Bot dapat memalsukan string user agent secara sepele, tetapi tidak dapat membangun koneksi TCP dengan IP sumber yang dipalsukan. Ini mengapa verifikasi berbasis IP adalah definitif sementara identifikasi berbasis user agent tidak.
Apa itu ASN dan mengapa itu penting untuk deteksi bot?
ASN, atau Nomor Sistem Otonom, mengidentifikasi jaringan yang dioperasikan oleh organisasi tunggal. Jaringan Google adalah AS15169, Microsoft menggunakan beberapa ASN, dan OpenAI memiliki rentang tersendiri yang ditunjuk. Memeriksa IP bot terhadap ASN yang diharapkan segera mengungkapkan apakah permintaan berasal dari infrastruktur organisasi yang diklaim atau dari pusat data yang tidak terkait.
Haruskah saya memblokir semua bot yang gagal verifikasi?
Memblokir bot yang menyamar sebagai mesin pencari tertentu umumnya aman dan direkomendasikan. Namun, tidak semua bot yang tidak diverifikasi berbahaya. Beberapa adalah alat asli yang tidak menyamar sebagai penggemar. Pembedaan kunci adalah antara bot yang berbohong tentang identitas mereka, yang harus diblokir, dan bot yang jujur mengidentifikasi diri mereka, yang dapat dievaluasi secara individual.
Seberapa umum penyamaran bot di situs web khas?
Prevalensi bervariasi menurut ukuran situs dan jenis konten. Situs dengan otoritas domain tinggi, konten berharga, atau jumlah halaman besar cenderung menarik lebih banyak penggemar palsu. Data industri menunjukkan bahwa lalu lintas bot menyumbang tiga puluh hingga lima puluh persen dari semua lalu lintas web secara global, dan bagian signifikan dari itu adalah lalu lintas penyamaran yang mengklaim menjadi penggemar mesin pencari asli.
Apakah memblokir bot palsu mempengaruhi pengindeksan mesin pencari asli?
Tidak. Pemblokiran berbasis verifikasi hanya mempengaruhi permintaan dari alamat IP yang tidak termasuk mesin pencari yang diklaim. Googlebot asli, Bingbot, dan penggemar asli lainnya lulus verifikasi dan terus mengakses situs secara normal. Satu-satunya dampaknya adalah pada penyamaran.