Fake GoogleBot Fake ChatGPT Crawler Fake Bing dan Zoologi Bot Internet

Internet memiliki masalah satwa liar. Di bawah permukaan aktivitas browsing manusia terdapat seluruh ekosistem program otomatis yang merangkak, mengikis, menyelidik, dan meminta halaman web dalam skala luar biasa. Beberapa bot ini bermanfaat. Crawler Google mengindeks halaman sehingga muncul dalam hasil pencarian. Crawler Bing melakukan hal yang sama untuk mesin pencari Microsoft. Crawler OpenAI mengumpulkan data pelatihan untuk model bahasa. Crawler sah ini mengidentifikasi diri mereka dengan jujur, mengikuti aturan yang ditentukan dalam file robots.txt, dan beroperasi dari infrastruktur yang dikenal. Tetapi untuk setiap crawler sah, ada puluhan penipu yang mengenakan kartu nama yang sama sambil melakukan sesuatu yang sama sekali berbeda. Mereka mengumumkan diri mereka sebagai Googlebot dalam string agen pengguna mereka, mengklaim mengindeks halaman untuk pencarian, dan mengandalkan fakta bahwa sebagian besar server web akan memberikan mereka perlakuan istimewa berdasarkan identitas yang diklaim. Zoologi bot internet ini secanggih, kompetitif, dan sesekali aneh seperti ekosistem biologis apa pun.

Memahami ekosistem ini penting bagi siapa pun yang menjalankan situs web, karena keputusan untuk mempercayai atau memblokir bot memiliki konsekuensi langsung. Memblokir crawler mesin pencari asli berarti halaman berhenti muncul dalam hasil pencarian. Mempercayai yang palsu berarti memungkinkan scraper, alat intelijen kompetitif, atau aktor berbahaya mengkonsumsi sumber daya server sambil berpura-pura memberikan nilai. Kemampuan untuk membedakan antara crawler asli dan palsu bukanlah latihan keamanan teoritis. Ini adalah kebutuhan praktis yang mempengaruhi biaya bandwidth, kinerja server, akurasi analitik, dan perlindungan konten. API deteksi bot ada justru untuk tujuan ini, memberikan verifikasi definitif dari identitas crawler berdasarkan satu hal yang tidak dapat dipalsukan: infrastruktur jaringan tempat bot terhubung.

Spesies Fake Googlebot

Googlebot adalah crawler yang paling banyak dipalsukan di internet, dan alasannya jelas. Situs web secara rutin memberikan Googlebot hak istimewa khusus. Batas kecepatan santai. Paywall diangkat. Konten yang disembunyikan di balik rendering JavaScript dibuat sebelumnya khusus untuk crawler Google. Aturan robots.txt sering mengizinkan akses Googlebot secara eksplisit ke bagian yang dibatasi untuk crawler lain. Dengan mengklaim sebagai Googlebot, crawler palsu mewarisi semua hak istimewa ini tanpa mendapatkannya. Situs web melayani konten terbaiknya, respons tercepat, dan halaman paling lengkap kepada apa yang diyakini sebagai infrastruktur pengindeksan Google, padahal sebenarnya penerimanya adalah scraper yang beroperasi dari server yang disewa di pusat data.

Googlebot asli dapat diidentifikasi dengan kepastian mutlak. Beroperasi secara eksklusif dari alamat IP dalam sistem otonomi Google, AS15169. Pencarian DNS terbalik pada alamat IP Googlebot asli apa pun mengembalikan nama host yang berakhir dengan googlebot.com atau google.com. Pencarian DNS maju pada nama host itu diselesaikan kembali ke alamat IP asli. Rantai verifikasi tiga langkah ini, IP ke nama host ke IP, terikat secara kriptografi ke infrastruktur DNS Google dan tidak dapat dipalsukan tanpa menguasai server DNS Google, yang secara efektif tidak mungkin. Detektor bot Google melakukan rantai verifikasi yang tepat ini dan mengembalikan hasil yang pasti.

Fake Googlebot, sebaliknya, berasal dari infrastruktur cloud tujuan umum yang dapat disewa siapa saja per jam. Amazon Web Services, Google Cloud Platform (ironisnya), Microsoft Azure, DigitalOcean, Hetzner, OVH, dan Contabo adalah asal umum. String agen pengguna disalin verbatim dari Googlebot asli, sering kali termasuk nomor versi dan format URL crawl. Beberapa palsu canggih bahkan meniru pola permintaan Googlebot, menjarangkan permintaan mereka dan mengikuti tautan dalam pola yang menyerupai perayapan sah. Tetapi alamat IP mengungkap mereka setiap saat. Tidak ada jumlah mimikri perilaku yang dapat mengubah fakta bahwa permintaan berasal dari AS16509 (Amazon) bukannya AS15169 (Google).

Bingbot dan Penipu-Peniunya

Bingbot milik Microsoft adalah crawler yang kedua paling banyak dipalsukan, dan verifikasinya mengikuti pola serupa dengan Googlebot tetapi dengan beberapa perbedaan penting. Bingbot asli beroperasi dari infrastruktur Microsoft, dan alamat IP-nya diselesaikan melalui DNS terbalik ke nama host dalam domain search.msn.com. Verifikasi ASN memeriksa terhadap sistem otonomi Microsoft, yang mencakup beberapa ASN karena infrastruktur jaringan perusahaan yang luas. Verifikasi sama berkuatnya tetapi memerlukan kesadaran alokasi IP yang lebih luas milik Microsoft dibandingkan dengan rentang yang lebih terpadu milik Google.

Fake Bingbot melayani banyak tujuan yang sama dengan fake Googlebot tetapi muncul dalam volume yang agak lebih rendah, mencerminkan pangsa pasar Bing yang lebih kecil dan insentif yang sesuai untuk meniru lebih kecil. Namun, situs web yang secara khusus dioptimalkan untuk Bing atau yang menyajikan konten berbeda ke Bingbot menarik pembajakan yang tidak proporsional. Alat SEO yang menganalisis bagaimana halaman muncul untuk crawler Bing sering kali menggunakan agen pengguna Bingbot palsu untuk mengambil versi spesifik Bing halaman. Layanan intelijen kompetitif melakukan hal yang sama untuk melihat konten apa yang disajikan pesaing secara khusus ke infrastruktur pencarian Microsoft.

Metodologi deteksi identik pada prinsipnya. Periksa alamat IP terhadap rentang Microsoft yang dikenal. Lakukan verifikasi DNS terbalik dan maju. Konfirmasi ASN cocok. Permintaan mengklaim sebagai Bingbot yang berasal dari server Hetzner di Finlandia palsu dengan kepastian mutlak, terlepas dari seberapa meyakinkan string agen pengguna dibuat. API deteksi bot menangani verifikasi ini secara otomatis, memeriksa identitas yang diklaim terhadap asal jaringan sebenarnya dan mengembalikan putusan yang jelas.

Crawler ChatGPT dan Gelombang Baru Bot AI

Munculnya model bahasa besar telah menciptakan kategori crawler web yang sepenuhnya baru dan kategori pembajakan yang sepenuhnya baru. GPTBot milik OpenAI merangkak web untuk mengumpulkan data pelatihan, dan kehadirannya telah menjadi salah satu topik paling kontroversial dalam penerbitan web. Banyak penerbit ingin memblokir GPTBot untuk mencegah konten mereka digunakan untuk pelatihan AI. Yang lain ingin membiarkannya, berharap perlakuan yang menguntungkan dalam respons ChatGPT. Bagaimanapun, kemampuan untuk membedakan GPTBot asli dari versi palsu sangat penting untuk menegakkan kebijakan apa pun yang telah dipilih penerbit.

GPTBot asli, seperti Googlebot asli, beroperasi dari set IP tertentu yang terkait dengan infrastruktur OpenAI. String agen pengguna mengidentifikasi dirinya dengan jelas, dan rentang IP dipublikasikan dan dapat diverifikasi. Fake GPTBot, yang telah berkembang pesat sejak peluncuran ChatGPT, menggunakan string agen pengguna yang sama tetapi terhubung dari infrastruktur yang tidak terkait. Motivasi untuk meniru GPTBot beragam. Beberapa scraper menggunakannya karena penerbit yang telah memutuskan untuk mengizinkan crawler pelatihan AI akan melayani konten bebas untuk apa pun yang mengklaim sebagai GPTBot. Yang lain menggunakannya sebagai identitas cover generik, mengandalkan asumsi bahwa administrator server kurang akrab dengan rentang IP OpenAI daripada Google dan oleh karena itu kurang mungkin untuk memverifikasi klaim. Detektor crawler OpenAI mengatasi ini secara langsung, memverifikasi apakah permintaan GPTBot yang diklaim benar-benar berasal dari jaringan OpenAI.

Di luar GPTBot, lanskap crawler AI berkembang pesat. Anthropic, Perplexity, Meta, dan berbagai perusahaan AI yang lebih kecil semuanya mengoperasikan crawler web dengan tingkat transparansi yang bervariasi tentang aktivitas mereka. Masing-masing crawler ini dapat dipalsukan, dan setiap pembajakan membawa implikasi sendiri tergantung pada cara situs target memperlakukan crawler tertentu itu. Situs yang memblokir semua crawler AI kecuali GPTBot, misalnya, menciptakan insentif kuat bagi scraper untuk meniru GPTBot secara khusus, karena itu adalah satu-satunya identitas yang akan dilayani konten tanpa pembatasan.

Pemain Kecil dan Ekor Panjang Pembajakan Bot

Ekosistem bot meluas jauh melampaui Google, Bing, dan OpenAI. Yandex mengoperasikan crawler signifikan untuk web berbahasa Rusia, dan bot Yandex palsu umum di situs dengan konten berbahasa Rusia atau yang menyajikan konten berbeda ke Yandex. Crawler DuckDuckGo, DuckDuckBot, dipalsukan meskipun DuckDuckGo memiliki pangsa pasar yang relatif kecil, karena situs yang melayani pengguna yang sadar privasi sering memberikan akses istimewa ke DuckDuckBot. Qwant, mesin pencari Perancis, dan Seznam, mesin pencari Ceko, keduanya memiliki crawler yang dipalsukan di pasar regional masing-masing.

Metodologi verifikasi bekerja identik untuk semuanya. Setiap crawler sah beroperasi dari set IP yang dikenal terkait dengan infrastruktur jaringan operatornya. ASN mengidentifikasi jaringan. DNS terbalik mengonfirmasi nama host. DNS maju mengonfirmasi IP. Rantai verifikasi ini universal dan berlaku terlepas dari crawler spesifik yang sedang diperiksa. Perbedaannya hanya dalam data referensi: ASN mana, pola nama host mana, dan rentang IP mana milik setiap crawler. API deteksi bot mempertahankan dataset referensi ini untuk delapan crawler utama dan memberikan verifikasi sebagai panggilan API tunggal.

Ekor panjang ekosistem bot juga mencakup crawler yang tidak meniru siapa pun sama sekali. Ini adalah bot jujur. Alat SEO seperti Ahrefs, SEMrush, dan Moz mengoperasikan crawler yang mengidentifikasi diri mereka secara akurat dalam string agen pengguna mereka. Layanan perbandingan harga, crawler penelitian akademik, pemeriksa aksesibilitas, dan validator tautan semuanya mengumumkan identitas sejati mereka. Bot ini mungkin atau mungkin tidak disambut di situs apa pun, tetapi setidaknya operator situs dapat membuat keputusan berdasarkan informasi tentang apakah akan mengizinkan mereka. Masalahnya secara khusus dengan penipu, bot yang berbohong tentang identitas mereka untuk mendapatkan akses yang tidak akan mereka terima.

Membangun Pertahanan Berdasarkan Verifikasi Identitas

Pertahanan praktis terhadap pembajakan bot mudah setelah mekanisme verifikasi berada di tempat. Setiap permintaan masuk yang mengklaim berasal dari crawler mesin pencari dicentang terhadap infrastruktur yang dikenal crawler. Permintaan yang lulus verifikasi diizinkan melalui dengan hak istimewa apa pun yang diberikan situs ke crawler itu. Permintaan yang gagal verifikasi baik diblokir sepenuhnya atau diperlakukan sebagai lalu lintas generik yang tunduk pada kontrol akses dan pembatasan kecepatan standar situs.

Pendekatan ini lebih unggul daripada analisis perilaku untuk beberapa alasan. Analisis perilaku mencoba menentukan apakah pengunjung adalah bot berdasarkan cara berinteraksi dengan situs: tingkat permintaan, pola navigasi, eksekusi JavaScript, gerakan mouse. Sinyal-sinyal ini bising, menghasilkan positif palsu, dan dapat dikalahkan oleh bot yang cukup canggih yang meniru perilaku manusia. Verifikasi berbasis IP, sebaliknya, menghasilkan hasil biner dengan nol positif palsu. Permintaan baik berasal dari jaringan Google atau tidak. Tidak ada ambiguitas, tidak ada ambang batas untuk disesuaikan, dan tidak ada model perilaku untuk dilatih.

Implementasi tidak perlu sinkron dengan setiap permintaan untuk situs di mana latensi menjadi perhatian. Verifikasi dapat berjalan secara asinkron, dengan hasil di-cache per alamat IP. Setelah IP diverifikasi sebagai milik Googlebot, semua permintaan berikutnya dari IP itu dapat diizinkan tanpa verifikasi ulang selama periode yang dapat dikonfigurasi. Pendekatan ini menambahkan latensi yang dapat diabaikan ke pipeline permintaan sambil memberikan perlindungan komprehensif terhadap pembajakan. Periode cache mencerminkan pertukaran: cache yang lebih lama berarti lebih sedikit panggilan API tetapi jendela sedikit lebih besar di mana IP yang sebelumnya diverifikasi dapat berubah kepemilikan secara teoritis. Dalam praktiknya, alokasi IP mesin pencari sangat stabil, dan durasi cache 24 jam atau lebih aman untuk sebagian besar aplikasi.

Hasil dari menerapkan verifikasi bot berbasis identitas adalah tampilan yang lebih bersih dan lebih jujur tentang apa yang benar-benar mengenai server. Crawler asli disambut. Crawler palsu terekspos dan diblokir. Data analitik mencerminkan realitas bukan fiksi. Sumber daya server dialokasikan ke pengunjung nyata dan crawler sah bukannya disia-siakan untuk penipu. Zoologi bot internet kompleks dan terus berkembang, tetapi prinsip fundamental verifikasi oleh asal jaringan tetap efektif terlepas dari bagaimana ekosistem bot berubah.

Pertanyaan yang Sering Diajukan

Bagaimana cara memverifikasi jika permintaan benar-benar dari Googlebot?

Lakukan pencarian DNS terbalik pada alamat IP dan konfirmasi nama host berakhir dengan googlebot.com atau google.com. Kemudian lakukan pencarian DNS maju pada nama host itu dan konfirmasi itu diselesaikan kembali ke IP yang sama. Alternatifnya, periksa bahwa IP milik AS15169, yang merupakan sistem otonomi Google. API deteksi bot melakukan semua pemeriksaan ini dalam satu panggilan.

Bisakah bot memalsukan alamat IP-nya untuk muncul sebagai Googlebot?

Alamat IP tidak dapat dipalsukan untuk koneksi TCP karena jabat tangan TCP memerlukan komunikasi dua arah. Bot dapat memalsukan string agen pengguna secara trivial, tetapi tidak dapat membangun koneksi TCP dengan alamat IP sumber yang dipalsukan. Ini adalah alasan mengapa verifikasi berbasis IP bersifat definitif sementara identifikasi berbasis agen pengguna tidak.

Apa itu ASN dan mengapa penting untuk deteksi bot?

ASN, atau Nomor Sistem Otonomi, mengidentifikasi jaringan yang dioperasikan oleh satu organisasi. Jaringan Google adalah AS15169, Microsoft menggunakan beberapa ASN, dan OpenAI memiliki rentang yang ditunjuk sendiri. Memeriksa IP bot terhadap ASN yang diharapkan segera mengungkapkan apakah permintaan berasal dari infrastruktur organisasi yang diklaim atau dari pusat data yang tidak terkait.

Haruskah saya memblokir semua bot yang gagal verifikasi?

Memblokir bot yang menyamar sebagai mesin pencari spesifik umumnya aman dan disarankan. Namun, tidak semua bot yang tidak diverifikasi berbahaya. Beberapa adalah alat sah yang hanya tidak menyamar sebagai crawler. Perbedaan utama adalah antara bot yang berbohong tentang identitas mereka, yang harus diblokir, dan bot yang jujur mengidentifikasi diri mereka, yang dapat dievaluasi secara individual.

Seberapa umum pembajakan bot di situs web tipikal?

Prevalensinya bervariasi berdasarkan ukuran dan jenis konten situs. Situs dengan otoritas domain tinggi, konten berharga, atau jumlah halaman besar cenderung menarik lebih banyak crawler palsu. Data industri menunjukkan bahwa lalu lintas bot menyumbang tiga puluh hingga lima puluh persen dari semua lalu lintas web global, dan bagian signifikan dari itu adalah lalu lintas pembajakan yang mengklaim sebagai crawler mesin pencari sah.

Apakah memblokir bot palsu mempengaruhi pengindeksan mesin pencari nyata?

Tidak. Pemblokiran berbasis verifikasi hanya mempengaruhi permintaan dari alamat IP yang tidak milik mesin pencari yang diklaim. Googlebot asli, Bingbot, dan crawler sah lainnya lulus verifikasi dan terus mengakses situs secara normal. Satu-satunya dampak adalah pada penipu.