คู่มือระบุตัวตนของ Fake Googlebot Fake ChatGPT Crawler Fake Bingbot และวิธีการตรวจสอบ

อินเทอร์เน็ตมีปัญหาการสัตว์ป่า ใต้พื้นผิวของกิจกรรมการเรียกดูของมนุษย์นั้น มีระบบนิเวศของโปรแกรมอัตโนมัติทั้งหมดที่ crawl scrape probe และขอเพจเว็บในระดับที่มหาศาล บอทบางตัวมีประโยชน์ crawler ของ Google ทำการจัดทำดัชนีเพจเพื่อให้ปรากฏในผลการค้นหา crawler ของ Bing ทำเช่นเดียวกันสำหรับเครื่องมือค้นหาของ Microsoft crawler ของ OpenAI รวบรวมข้อมูลการฝึกอบรมสำหรับโมเดลภาษา Crawlers ที่合法นี้ระบุตัวตนของตนเองอย่างสัจจะ ปฏิบัติตามกฎเกณฑ์ที่ระบุไว้ในไฟล์ robots.txt และดำเนินการจากโครงสร้างพื้นฐานที่ทราบ แต่สำหรับ crawler ที่合法แต่ละตัว มีสิ่งปลอมตัวประมาณหลายสิบตัวที่สวมป้ายชื่อเดียวกันในขณะที่ทำสิ่งที่ต่างกันโดยสิ้นเชิง พวกเขาประกาศตัวตนว่าเป็น Googlebot ในสตริง user agent ของพวกเขา อ้างว่ากำลังจัดทำดัชนีเพจสำหรับการค้นหา และอาศัยความจริงที่ว่า web servers ส่วนใหญ่จะให้สิทธิพิเศษแก่พวกเขาตามข้อเรียกร้องของพวกเขา Zoology ของบอทอินเทอร์เน็ตนี้มีความซับซ้อน การแข่งขันและบ้าบอถึงระดับของระบบนิเวศทางชีววิทยาใด ๆ

การทำความเข้าใจระบบนิเวศนี้มีความสำคัญสำหรับผู้ที่ดำเนินการเว็บไซต์ เนื่องจากการตัดสินใจที่จะเชื่อถือหรือบล็อกบอทมีผลโดยตรง บล็อก crawler ของเครื่องมือค้นหาจริงหมายความว่าเพจหยุดปรากฏในผลการค้นหา การเชื่อถือสิ่งปลอมหมายความว่าอนุญาตให้ scraper เครื่องมือ competitive intelligence หรือผู้กระทำการที่มีเจตนาร้ายใช้ทรัพยากร server ในขณะที่อ้างว่ามีมูลค่า ความสามารถในการแยกแยะระหว่าง crawlers จริงและปลอมไม่ใช่การฝึกอบรมด้านความปลอดภัยทางทฤษฎี มันเป็นความจำเป็นในทางปฏิบัติที่มีผลต่ออัตราค่าแบนด์วิดท์ ประสิทธิภาพ server ความถูกต้องของการวิเคราะห์ และการป้องกันเนื้อหา bot detection API มีอยู่เพื่อวัตถุประสงค์นี้อย่างแน่นอน ให้การยืนยันตัวตนของ crawler ที่ชัดเจนตามสิ่งเดียวที่ไม่สามารถปลอมได้: โครงสร้างพื้นฐานของเครือข่ายที่บอทเชื่อมต่อจาก

สปีชีส์ของ Fake Googlebot

Googlebot คือ crawler ที่มีการสวมรอยตัวตนมากที่สุดบนอินเทอร์เน็ต และเหตุผลนั้นชัดเจน เว็บไซต์มักจะให้ Googlebot สิทธิพิเศษ ปรับปรุงขีด จำกัด ของอัตรา ยกเลิกผนังแพงที่มีค่า เนื้อหาที่ซ่อนอยู่เบื้องหลังการเรนเดอร์ JavaScript นั้นถูก pre-render เฉพาะสำหรับ crawler ของ Google Robots.txt rules มักจะระบุอย่างชัดเจนว่าอนุญาต Googlebot access ไปยังส่วนที่ถูก จำกัด สำหรับ crawlers อื่น ๆ ด้วยการอ้างว่าเป็น Googlebot crawler ปลอมจะสืบทอดสิทธิพิเศษเหล่านี้ทั้งหมดโดยไม่ได้รับสิ่งใดเลย เว็บไซต์ให้เนื้อหาที่ดีที่สุด การตอบสนองที่เร็วที่สุด และเพจที่สมบูรณ์ที่สุดให้กับสิ่งที่มันเชื่อว่าเป็นโครงสร้างพื้นฐานการจัดทำดัชนีของ Google เมื่อในความเป็นจริง ผู้รับเป็น scraper ที่ดำเนินการจากเซิร์ฟเวอร์ที่เช่า ในศูนย์ข้อมูล

Googlebot ที่แท้จริงสามารถระบุตัวตนได้อย่างแน่นอน มันทำงานเฉพาะจากที่อยู่ IP ภายในระบบอัตโนมัติของ Google AS15169 การค้นหา reverse DNS บนที่อยู่ IP ของ Googlebot ที่แท้จริงใด ๆ จะส่งกลับชื่อโฮสต์ที่ลงท้ายด้วย googlebot.com หรือ google.com การค้นหา forward DNS บนชื่อโฮสต์นั้นแก้กลับไปยังที่อยู่ IP ดั้งเดิม โซ่การยืนยันตัวตนสามขั้นตอนนี้ IP ถึง hostname ถึง IP ถูกแยกตามรหัสลับไปยังโครงสร้างพื้นฐาน DNS ของ Google และไม่สามารถปลอมได้โดยไม่มีการประนีประนอมเซิร์ฟเวอร์ DNS ของ Google ซึ่งเป็นไปไม่ได้ Google bot detector ดำเนินการต่อโซ่การยืนยันตัวตนนี้อย่างแน่นอน และส่งกลับผลลัพธ์ที่ชัดเจน

Fake Googlebot ในทางกลับกัน มาจากโครงสร้างพื้นฐานการคำนวณระบบปกติที่ใครเป็นสามารถเช่า ตามชั่วโมง Amazon Web Services Google Cloud Platform (อย่างผิดพลาด) Microsoft Azure DigitalOcean Hetzner OVH และ Contabo เป็นต้นกำเนิดทั่วไป สตริง user agent ได้รับการคัดลอกจาก real Googlebot อย่างแน่นอน บ่อยครั้งรวมถึงหมายเลขเวอร์ชันและรูปแบบ URL การ crawl บอทปลอมที่ซับซ้อนบางตัวแม้กระทั่ง mimic รูปแบบการขอของ Googlebot spacing requests ของพวกเขาและทำตามลิงค์ในรูปแบบที่เหมือนกับการ crawling ที่合法 แต่ที่อยู่ IP เปิดเผยพวกเขาทุกครั้ง ไม่มีจำนวน mimicry พฤติกรรมที่สามารถเปลี่ยนแปลงข้อเท็จจริงที่ว่าการขอมาจาก AS16509 (Amazon) แทน AS15169 (Google)

Bingbot และ Imposters ของมัน

Bingbot ของ Microsoft เป็น crawler ที่มีการสวมรอยตัวตนมากที่สุดเป็นอันดับสอง และการยืนยันตัวตนของมันตามรูปแบบที่คล้ายกับ Googlebot แต่มีความแตกต่างที่สำคัญ Bingbot ที่แท้จริงทำงานจากโครงสร้างพื้นฐานของ Microsoft และที่อยู่ IP ของมันแก้ไขผ่าน reverse DNS ไปยังชื่อโฮสต์ภายในโดเมน search.msn.com การตรวจสอบ ASN ตรวจสอบเทียบกับระบบอัตโนมัติของ Microsoft ซึ่งรวมถึง ASNs หลายตัวเนื่องจากโครงสร้างพื้นฐานเครือข่ายที่กว้างขวางของบริษัท การยืนยันตัวตนเท่าเทียมกัน แต่ต้องรับรู้การจัดสรร IP ที่กว้างขวางของ Microsoft เมื่อเทียบกับช่วง AS15169 ของ Google

Fake Bingbot ให้บริการวัตถุประสงค์เดียวกันมากมายกับ fake Googlebot แต่ปรากฏขึ้นในปริมาณที่ต่ำกว่าโดยสะท้อนถึงส่วนแบ่งตลาดที่เล็กกว่าของ Bing และ incentive ที่เล็กกว่าตามลำดับสำหรับสวมรอยตัวตน อย่างไรก็ตาม เว็บไซต์ที่ปรับให้เหมาะสมโดยเฉพาะสำหรับ Bing หรือที่เสิร์ฟเนื้อหาที่แตกต่างกันไปยัง Bingbot ดึงดูดการสวมรอยตัวตนอย่างไม่เป็นสัดส่วน เครื่องมือ SEO ที่วิเคราะห์ว่าเพจปรากฏเป็นอย่างไรต่อ crawler ของ Bing มักใช้ fake Bingbot user agents เพื่อเรียกสืบเนื้อหาเฉพาะของ Bing บริการ competitive intelligence ทำเช่นเดียวกันเพื่อดูว่าเนื้อหาใดที่ competitors กำลังให้บริการโดยเฉพาะต่อโครงสร้างพื้นฐานการค้นหาของ Microsoft

ระเบียบวิธีการตรวจสอบตัวตนนั้นเหมือนกันในหลักการ ตรวจสอบที่อยู่ IP เทียบกับช่วง Microsoft ที่ทราบ ดำเนินการยืนยันตัวตน reverse และ forward DNS ยืนยัน ASN ตรงกัน การขอที่อ้างว่าเป็น Bingbot ที่มาจากเซิร์ฟเวอร์ Hetzner ในฟินแลนด์เป็นปลอมอย่างแน่นอน โดยไม่คำนึงว่า user agent string สร้างขึ้นอย่างน่าเชื่อถือเพียงใด bot detection API จัดการการยืนยันตัวตนนี้โดยอัตโนมัติ ตรวจสอบตัวตนที่เรียกร้องเทียบกับต้นกำเนิดเครือข่ายที่แท้จริง และส่งกลับคำตัดสินที่ชัดเจน

ChatGPT Crawler และคลื่นใหม่ของ AI Bots

การเกิดขึ้นของโมเดลภาษาขนาดใหญ่ได้สร้างหมวดหมู่ใหม่ของเว็บ crawlers ทั้งหมดและหมวดหมู่ใหม่ของการสวมรอยตัวตน GPTBot ของ OpenAI crawls เว็บเพื่อรวบรวมข้อมูลการฝึกอบรม และการมีอยู่ของมันได้กลายเป็นหนึ่งในหัวข้อที่ขัดแย้งกันมากที่สุดในการตีพิมพ์บนเว็บ ผู้จัดพิมพ์จำนวนมากต้องการบล็อก GPTBot เพื่อป้องกันเนื้อหาของพวกเขาจากการใช้สำหรับการฝึกอบรมด้าน AI คนอื่น ๆ ต้องการอนุญาตให้มัน หวังว่าจะได้รับการปฏิบัติที่ดีในการตอบสนองของ ChatGPT ไม่ว่าในกรณีใด ความสามารถในการแยกแยะ GPTBot จริงจากเวอร์ชันปลอมนั้นมีความสำคัญอย่างยิ่งสำหรับการบังคับใช้นโยบายใด ๆ ที่ผู้จัดพิมพ์เลือก

GPTBot ที่แท้จริง เช่นเดียวกับ Googlebot ที่แท้จริง ทำงานจากชุดของที่อยู่ IP ที่เฉพาะเจาะจงที่เกี่ยวข้องกับโครงสร้างพื้นฐานของ OpenAI สตริง user agent ระบุตัวตนอย่างชัดเจน และช่วง IP ได้รับการตีพิมพ์และสามารถตรวจสอบได้ Fake GPTBot ซึ่งได้ขยายอย่างรวดเร็วตั้งแต่การเปิดตัว ChatGPT ใช้สตริง user agent เดียวกัน แต่เชื่อมต่อจากโครงสร้างพื้นฐานที่ไม่เกี่ยวข้อง แรงจูงใจสำหรับการสวมรอยตัวตน GPTBot นั้นหลากหลาย สกราเปอร์บางตัวใช้มันเพราะผู้จัดพิมพ์ที่ตัดสินใจอนุญาตให้ crawlers การฝึกอบรม AI จะให้เนื้อหาอย่างอิสระต่อสิ่งใดก็ตามที่อ้างว่าเป็น GPTBot คนอื่น ๆ ใช้มันเป็น cover identity ทั่วไป ขึ้นอยู่กับสมมติฐานที่ว่า server administrators คุ้นเคยกับช่วง IP ของ Google มากกว่าของ OpenAI ดังนั้นจึงน้อยกว่าที่จะตรวจสอบข้อเรียกร้อง OpenAI crawler detector แก้ไขปัญหานี้โดยตรง ยืนยันว่าการขอ GPTBot ที่อ้างว่า จริง ๆ มาจากเครือข่าย OpenAI

นอกเหนือจาก GPTBot ภูมิทัศน์ AI crawler กำลังขยายตัวอย่างรวดเร็ว Anthropic Perplexity Meta และ บริษัท AI ที่เล็กกว่ามากมายทั้งหมดดำเนินการเว็บ crawlers ที่มีระดับความโปร่งใสต่างกันเกี่ยวกับกิจกรรมของพวกเขา Crawlers แต่ละตัวสามารถสวมรอยตัวตน และการสวมรอยตัวตนแต่ละตัวมีผลกระทบของตัวเองตามวิธีการที่ไซต์เป้าหมายประกอบอบรม crawler นั้นโดยเฉพาะ ไซต์ที่บล็อก crawlers AI ทั้งหมด ยกเว้น GPTBot เป็นตัวอย่าง สร้าง incentive ที่แข็งแกร่งสำหรับสกราเปอร์เพื่อสวมรอยตัวตน GPTBot โดยเฉพาะ เนื่องจากมันเป็นตัวตนเดียวที่จะได้รับเนื้อหาบริการโดยไม่มีข้อ จำกัด

ผู้เล่นที่เล็กกว่าและ Long Tail ของ Bot Impersonation

ระบบนิเวศ bot ขยายออกไปไกลกว่า Google Bing และ OpenAI Yandex ดำเนินการ crawler ที่มีนัยสำคัญสำหรับเว็บภาษารัสเซีย และ fake Yandex bots เป็นเรื่องปกติในไซต์ที่มีเนื้อหาภาษารัสเซีย หรือให้เนื้อหาที่แตกต่างกัน DuckDuckGo crawler DuckDuckBot เป็นการสวมรอยตัวตนแม้จะมีส่วนแบ่งตลาดที่เล็กกว่าของ DuckDuckGo เพราะไซต์ที่สนใจผู้ใช้ที่รักษาความเป็นส่วนตัวให้บ่อยครั้งให้ DuckDuckBot access ที่ดีขึ้น Qwant เครื่องมือค้นหาของฝรั่งเศส และ Seznam เครื่องมือค้นหาของสาธารณรัฐเช็ก ทั้งสองมี crawlers ที่ได้รับการสวมรอยตัวตนในตลาดระดับภูมิภาคที่เกี่ยวข้อง

ระเบียบวิธีการยืนยันตัวตนนั้นดำเนินการแบบเดียวกันสำหรับพวกเขาทั้งหมด Crawler ที่合法แต่ละตัวทำงานจากชุดของที่อยู่ IP ที่ทราบเกี่ยวข้องกับโครงสร้างพื้นฐานเครือข่ายของผู้ดำเนินการ ASN ระบุเครือข่าย Reverse DNS ยืนยันชื่อโฮสต์ Forward DNS ยืนยัน IP โซ่การยืนยันตัวตนนี้เป็นสากล และใช้โดยไม่คำนึงถึง crawler ที่เฉพาะเจาะจงที่กำลังตรวจสอบ ความแตกต่างเพียงอย่างเดียวอยู่ในข้อมูลอ้างอิง: ASNs ที่ pattern ชื่อโฮสต์ และ IP ranges ที่เป็นของ crawler แต่ละตัว bot detection API รักษาชุดข้อมูลอ้างอิงเหล่านี้สำหรับ crawlers หลักแปดตัว และให้การยืนยันตัวตนเป็นการเรียก API เพียงครั้งเดียว

Long tail ของระบบนิเวศ bot ยังรวมถึง crawlers ที่ไม่สวมรอยตัวตนใครเลย นี่คือบอทสัจจะ SEO tools เช่น Ahrefs SEMrush และ Moz ดำเนินการ crawlers ที่ระบุตัวตนด้วยความแม่นยำในสตริง user agent ของพวกเขา บริการเปรียบเทียบราคา ตัวเครื่องด้านการวิจัย academic accessibility checkers และ link validators ทั้งหมดประกาศตัวตนที่แท้จริง บอทเหล่านี้อาจหรืออาจไม่ต้อนรับในไซต์ใด ๆ ที่กำหนด แต่อย่างน้อย ตัวดำเนินการไซต์สามารถตัดสินใจอย่างชาญญาณว่าจะอนุญาตให้พวกเขา ปัญหามีเฉพาะกับสิ่งปลอมตัว บอทที่โกหกเกี่ยวกับตัวตนของพวกเขาเพื่อได้รับ access ที่พวกเขาจะไม่ได้รับมิฉะนั้น

สร้างการป้องกันที่อิงตามการยืนยันตัวตน

การป้องกันในทางปฏิบัติต่อการสวมรอยตัวตน bot นั้นตรงไปตรงมาเมื่อกลไกการยืนยันตัวตนอยู่ในที่แล้ว ทุกการขอที่เข้ามาที่อ้างว่ามาจาก crawler ของเครื่องมือค้นหาได้รับการตรวจสอบเทียบกับโครงสร้างพื้นฐานที่ทราบของ crawler การขอที่ผ่านการยืนยันตัวตนอนุญาตให้ผ่านไปด้วยสิทธิพิเศษที่เว็บไซต์มอบให้กับ crawler นั้น การขอที่ไม่ผ่านการยืนยันตัวตนจะถูกบล็อกออกไปทั้งหมดหรือถือว่าเป็น traffic ทั่วไป ขึ้นอยู่กับการจำกัดอัตรามาตรฐาน และการควบคุม access ของไซต์

วิธีการนี้เหนือกว่าการวิเคราะห์พฤติกรรมด้วยเหตุผลหลายประการ การวิเคราะห์พฤติกรรมพยายามกำหนดว่าผู้เยี่ยมชมเป็นบอทหรือไม่โดยพิจารณาจากวิธีการโต้ตอบกับไซต์: อัตราการขอ รูปแบบการนำทาง การดำเนินการ JavaScript การเคลื่อนไหวของเมาส์ สัญญาณเหล่านี้มีเสียงดังสำเนียง เกิด false positives และสามารถถูกพ่ายแพ้โดยบอทที่ซับซ้อนพอที่จะเลียนแบบพฤติกรรมของมนุษย์ การยืนยันตัวตนตาม IP ในทางกลับกัน สร้างผลลัพธ์ไบนารีพร้อมข้อเท็จจริง false positives เป็นศูนย์ การขอมาจากเครือข่าย Google หรือไม่มีความชัดเจน ไม่มี ambiguity ไม่มี threshold ต้องปรับแต่ง และไม่มีตัวแบบพฤติกรรมต้องฝึก

การใช้งานไม่จำเป็นต้องเป็น synchronous ที่มีทุกการขอสำหรับไซต์ที่ latency เป็นความห่วงใจ การยืนยันตัวตนสามารถทำงาน asynchronously ที่มีผลลัพธ์ cached ต่อที่อยู่ IP เมื่อ IP ได้รับการยืนยันตัวตนเป็นของ Googlebot ทุกการขอที่ตามมาจาก IP นั้นสามารถอนุญาตได้โดยไม่ต้องใช้ยืนยันตัวตนอีกครั้งสำหรับช่วงเวลาที่กำหนดได้ วิธีการนี้เพิ่ม latency ที่ไม่สำคัญต่อการขอ request pipeline ในขณะที่ให้ความป้องกันที่ครอบคลุมต่อการสวมรอยตัวตน ช่วงเวลา caching สะท้อนถึงการแลกเปลี่ยน: caching ที่นานขึ้นหมายถึง API calls ที่น้อยลงแต่ window ที่ใหญ่ขึ้นเล็กน้อยโดยที่ IP ที่ยืนยันตัวตนก่อนหน้านี้ อาจเปลี่ยนความเป็นเจ้าของได้ทำได้จริง ในทางปฏิบัติ IP allocations ของเครื่องมือค้นหานั้นมั่นคงมาก และ cache durations ที่ยี่สิบสี่ชั่วโมงหรือมากกว่านั้นจะปลอดภัยสำหรับ applications ส่วนใหญ่

ผลลัพธ์ของการใช้งาน identity-based bot verification คือ cleaner มากขึ้น honest view ของสิ่งที่เป็นอย่างไร hitting the server จริง ๆ Crawlers จริงได้รับการต้อนรับ Fake crawlers ถูกเปิดโปงและบล็อก ข้อมูลการวิเคราะห์สะท้อนความเป็นจริงแทนการคิดสร้าง ทรัพยากร server ได้รับการจัดสรรให้กับผู้เยี่ยมชมที่แท้จริงและ crawlers ที่合法แทนที่จะเสียให้กับสิ่งปลอมตัว Zoology ของบอท internet นั้นมีความซับซ้อนและพัฒนาอย่างต่อเนื่อง แต่หลักการพื้นฐานของการยืนยันตัวตนตามต้นกำเนิดเครือข่ายนั้นมีประสิทธิผลโดยไม่คำนึงว่าระบบนิเวศบอท เปลี่ยนแปลง

คำถามที่พบบ่อย

ฉันจะตรวจสอบได้อย่างไรว่าการขอมาจาก Googlebot จริง ๆ หรือไม่?

ดำเนินการค้นหา reverse DNS บนที่อยู่ IP และยืนยันว่าชื่อโฮสต์ลงท้ายด้วย googlebot.com หรือ google.com แล้ว ดำเนินการค้นหา forward DNS บนชื่อโฮสต์นั้นและยืนยันว่ามันแก้กลับไปยังที่อยู่ IP เดียวกัน อีกทางหนึ่ง ตรวจสอบว่า IP เป็นของ AS15169 ซึ่งเป็นระบบอัตโนมัติของ Google bot detection API ดำเนินการการตรวจสอบเหล่านี้ทั้งหมดในการเรียก API เพียงครั้งเดียว

บอทสามารถปลอม IP address ของมันเพื่อปรากฏเป็น Googlebot ได้หรือไม่?

ที่อยู่ IP ไม่สามารถปลอมได้สำหรับ TCP connections เพราะ TCP handshake ต้องการการสื่อสารแบบสองทิศทาง บอทสามารถปลอม user agent string ได้อย่างง่ายดาย แต่มันไม่สามารถสร้าง TCP connection ด้วยแหล่งที่มา IP ที่ปลอมได้ นี่คือเหตุผลที่การยืนยันตัวตนตาม IP เป็นข้อมูลชี้บ่งชี้ในขณะที่การระบุชื่อตาม user agent ไม่ใช่

ASN คืออะไร และเหตุใดจึงมีความสำคัญสำหรับการตรวจสอบบอท?

ASN หรือ Autonomous System Number ระบุเครือข่ายที่ดำเนินการโดยองค์กรเดียว เครือข่ายของ Google คือ AS15169 Microsoft ใช้ ASNs หลายตัว และ OpenAI มีช่วง designate ของตัวเอง การตรวจสอบ IP ของบอทเทียบกับ ASN ที่คาดไว้ เปิดเผยทันทีว่าการขอมาจากโครงสร้างพื้นฐานขององค์กรที่อ้างว่าหรือจากศูนย์ข้อมูลที่ไม่เกี่ยวข้อง

ฉันควรบล็อกบอททั้งหมดที่ไม่ผ่านการยืนยันตัวตนหรือไม่?

การบล็อกบอทที่สวมรอยตัวตน crawlers ของเครื่องมือค้นหาที่เฉพาะเจาะจงนั้นปลอดภัยโดยทั่วไปและได้รับการแนะนำ อย่างไรก็ตาม ไม่ใช่ทั้งหมดของบอทที่ไม่ได้รับการยืนยันตัวตนนั้นเป็นสิ่งเลวร้าย บางตัวเป็นเครื่องมือที่合法ที่เพียงแค่ไม่สวมรอยตัวตน crawlers ข้อแยกที่สำคัญอยู่ระหว่างบอทที่โกหกเกี่ยวกับตัวตนของพวกเขา ซึ่งควรถูกบล็อก และบอทที่ยาจริง ระบุตัวตนของตัวเอง ซึ่งสามารถประเมินได้โดยแต่ละรายการ

บอท impersonation นั้นพบบ่อยเพียงใดในเว็บไซต์ทั่วไป?

ความชุกนั้นแตกต่างกันไปตามขนาดไซต์และประเภทเนื้อหา ไซต์ที่มีพลังการจัดอันดับโดเมนสูง เนื้อหาที่มีค่า หรือจำนวนเพจมากมายมีแนวโน้มที่จะดึงดูด crawlers ปลอมได้มากขึ้น ข้อมูล industry ชี้ให้เห็นว่า bot traffic บัญชี สามสิบถึงห้าสิบเปอร์เซ็นต์ของ web traffic ทั่วโลกทั้งหมด และส่วนสำคัญของสิ่งนั้นเป็น impersonation traffic ที่อ้างว่าเป็น crawlers ของเครื่องมือค้นหา合法

การบล็อก fake bots มีผลกระทบต่อการจัดทำดัชนีของเครื่องมือค้นหาจริงหรือไม่?

ไม่มี การบล็อกตามการยืนยันตัวตนมีผลกระทบต่อการขอจากที่อยู่ IP ที่ไม่เป็นของเครื่องมือค้นหาที่อ้างว่า Googlebot จริง Bingbot และ crawlers ที่合法อื่น ๆ ผ่านการยืนยันตัวตนและดำเนินการต่อ access ไซต์ปกติ ผลกระทบเพียงอย่างเดียวคือการสวมรอยตัวตนบนหนึ่ง

Fake GoogleBot Fake ChatGPT Crawler Fake Bing และ Zoology ของ Internet Bots