روبوتات غوغل المزيفة وزاحفات تشات جي بي تي المزيفة وبينغ المزيفة وعلم حيوان الإنترنت للروبوتات
الإنترنت يعاني من مشكلة الحياة البرية. تحت سطح نشاط تصفح الإنسان، توجد نظام بيئي كامل من البرامج الآلية التي تزحف وتكشط وتختبر وتطلب صفحات الويب بمقياس ضخم. بعض هذه الروبوتات مفيدة. زاحف غوغل يفهرس الصفحات حتى تظهر في نتائج البحث. زاحف بينغ يفعل الشيء ذاته لمحرك بحث مايكروسوفت. زاحف OpenAI يجمع بيانات التدريب لنماذج اللغة. تحدد هذه الزواحف الشرعية نفسها بصراحة، وتتبع القواعد المحددة في ملفات robots.txt، وتعمل من البنية التحتية المعروفة. لكن لكل زاحف شرعي، هناك عشرات المحتالين يرتدون بطاقة الاسم ذاتها بينما يفعلون شيئا مختلفا تماما. يعلنون عن أنفسهم باسم Googlebot في سلسلة وكيل المستخدم، ويدعون أنهم يفهرسون الصفحات للبحث، ويعتمدون على حقيقة أن معظم خوادم الويب ستمنحهم معاملة تفضيلية بناء على هويتهم المزعومة. علم حيوان روبوتات الإنترنت هذا معقد وتنافسي وأحيانا غريب مثل أي نظام بيئي بيولوجي.
فهم هذا النظام البيئي مهم لأي شخص يدير موقع ويب، لأن قرار الثقة أو حظر روبوت له عواقب مباشرة. حظر زاحف محرك بحث حقيقي يعني التوقف عن ظهور الصفحات في نتائج البحث. الثقة في واحد مزيف يعني السماح لمكشطة أو أداة استخبارات تنافسية أو جهة فاعلة خبيثة باستهلاك موارد الخادم بينما تتظاهر بتقديم قيمة. القدرة على التمييز بين الزواحف الحقيقية والمزيفة ليست تمرينا نظريا في الأمان. إنها ضرورة عملية تؤثر على تكاليف النطاق الترددي وأداء الخادم ودقة التحليلات وحماية المحتوى. API كشف الروبوتات موجودة على وجه التحديد لهذا الغرض، مما يوفر التحقق القاطع من هوية الزاحف بناء على الشيء الوحيد الذي لا يمكن تزييفه: البنية التحتية للشبكة التي يتصل بها الروبوت.
أنواع روبوت جوجل المزيفة
Googlebot هو الزاحف الأكثر انتحالا على الإنترنت، والأسباب واضحة. تمنح مواقع الويب Googlebot امتيازات خاصة بشكل روتيني. يتم تخفيف حدود المعدل. يتم رفع جدران الدفع. يتم عرض المحتوى المخفي خلف عرض JavaScript مسبقا على وجه التحديد لزاحف جوجل. تسمح قواعد Robots.txt غالبا بشكل صريح وصول Googlebot إلى أقسام مقيدة للزواحف الأخرى. من خلال الادعاء بأنه Googlebot، يرث الزاحف المزيف جميع هذه الامتيازات دون تحقيقها. يخدم الموقع محتواه الأفضل وأسرع الاستجابات وأكثر الصفحات اكتمالا لما يعتقد أنه بنية تحتية لفهرسة جوجل، بينما في الواقع المستقبل هو مكشطة تعمل من خادم مؤجر في مركز بيانات.
Googlebot الحقيقي قابل للتعرف عليه بشكل مؤكد تماما. يعمل حصريا من عناوين IP ضمن النظام المستقل لجوجل، AS15169. يعود بحث DNS عكسي على أي عنوان IP حقيقي لـ Googlebot اسم مضيف ينتهي بـ googlebot.com أو google.com. يحل بحث DNS أمامي على هذا الاسم المضيف مرة أخرى إلى عنوان IP الأصلي. هذه السلسلة ثلاثية الخطوات من التحقق، IP إلى اسم المضيف إلى IP، مرتبطة بشكل تشفيري بالبنية التحتية DNS لجوجل ولا يمكن تزييفها دون المساس بخوادم DNS جوجل، وهو أمر فعليا مستحيل. كاشف بوت جوجل ينفذ سلسلة التحقق الدقيقة هذه ويعيد نتيجة قاطعة.
Googlebot المزيف، بالمقابل، ينشأ من البنية التحتية للأغراض العامة التي يمكن لأي شخص استئجارها بالساعة. خدمات الويب الأمازونية وخدمة Google Cloud Platform (بشكل ساخر) وخدمة Microsoft Azure و DigitalOcean و Hetzner و OVH و Contabo هي أصول شائعة. يتم نسخ سلسلة وكيل المستخدم حرفيا من Googlebot الحقيقي، غالبا ما تشمل رقم الإصدار وتنسيق عنوان URL للزحف. بعض المزيفات الدقيقة تحاكي حتى أنماط طلب Googlebot، بفاصل طلباتها واتباع الروابط بطريقة تشبه الزحف الشرعي. لكن عنوان IP يفضحهم في كل مرة. لا يمكن لأي قدر من محاكاة السلوك أن يغير حقيقة أن الطلب ينشأ من AS16509 (Amazon) بدلا من AS15169 (Google).
Bingbot والمحتالون بهويته
Bingbot من مايكروسوفت هو ثاني أكثر الزواحف انتحالا للهوية، ويتبع التحقق منه نمطا مشابها لـ Googlebot لكن ببعض الاختلافات المهمة. يعمل Bingbot الحقيقي من البنية التحتية لمايكروسوفت، وتحل عناوين IP الخاصة به عبر بحث DNS عكسي إلى أسماء مضيفة ضمن مجال search.msn.com. التحقق من ASN يتحقق من الأنظمة المستقلة لمايكروسوفت، التي تشمل عدة أرقام ASN نظرا لامتداد البنية التحتية للشبكة للشركة. التحقق موثوق بنفس القدر لكنه يتطلب الوعي بتوزيع IP الأوسع من مايكروسوفت مقابل نطاق جوجل الأكثر تجميعا.
Bingbot المزيف يخدم نفس أغراض Googlebot المزيف لكن يظهر بأحجام منخفضة نوعا ما، مما يعكس حصة بينغ الأصغر من السوق والحافز الأقل بشكل متناسب لانتحال صفته. ومع ذلك، تجذب مواقع الويب التي تحسن بشكل خاص لـ Bing أو التي تخدم محتوى مختلفا لـ Bingbot انتحالا غير متناسب. غالبا ما تستخدم أدوات تحسين محركات البحث التي تحلل كيفية ظهور الصفحة لزاحف Bing وكيل Bingbot مزيف للحصول على نسخة Bing المحددة من الصفحات. تفعل خدمات الاستخبارات التنافسية الشيء ذاته لرؤية المحتوى الذي يخدمه المنافسون بشكل محدد للبنية التحتية لبحث مايكروسوفت.
منهجية الكشف متطابقة من حيث المبدأ. تحقق من عنوان IP مقابل نطاقات مايكروسوفت المعروفة. قم بإجراء التحقق العكسي والأمامي من DNS. تأكد من أن ASN يطابق. طلب يدعي أنه Bingbot ينشأ من خادم Hetzner في فنلندا مزيف بشكل مؤكد تماما، بغض النظر عن كيفية حرفة سلسلة وكيل المستخدم. API كشف الروبوتات يتعامل مع هذا التحقق تلقائيا، مقابل الهوية المزعومة ضد الأصل الشبكي الفعلي ويعيد حكم واضح.
زاحف تشات جي بي تي والموجة الجديدة من روبوتات الذكاء الاصطناعي
ظهور نماذج اللغة الكبيرة قد أنشأ فئة جديدة تماما من زواحف الويب وفئة جديدة تماما من الانتحال. يزحف GPTBot من OpenAI على الويب لجمع بيانات التدريب، وقد أصبح وجوده أحد أكثر المواضيع المثيرة للجدل في نشر الويب. يريد العديد من الناشرين حظر GPTBot لمنع محتواهم من الاستخدام في تدريب الذكاء الاصطناعي. يريد آخرون السماح به، آملين في معاملة مواتية في ردود ChatGPT. في كلتا الحالتين، القدرة على التمييز بين GPTBot الحقيقي والإصدارات المزيفة حاسمة لفرض أي سياسة اختارها الناشر.
GPTBot الحقيقي، مثل Googlebot الحقيقي، يعمل من مجموعة محددة من عناوين IP المرتبطة بالبنية التحتية OpenAI. تحدد سلسلة وكيل المستخدم نفسها بوضوح، والنطاقات المعروفة قابلة للتحقق. GPTBot المزيف، الذي انتشر بسرعة منذ إطلاق ChatGPT، يستخدم سلسلة وكيل المستخدم ذاتها لكنه يتصل من بنية تحتية غير ذات صلة. الدوافع لانتحال صفة GPTBot متنوعة. يستخدم بعض المكاشط لأن الناشرين الذين قرروا السماح بزواحف AI التدريب سيخدمون المحتوى بحرية لأي شيء يدعي أنه GPTBot. يستخدمه آخرون كهوية تغطية عام، بناء على افتراض أن مسؤولي الخوادم أقل معرفة بنطاقات IP من OpenAI من نطاقات جوجل وبالتالي أقل احتمالا للتحقق من الدعوى. كاشف زاحف OpenAI يعالج هذا مباشرة، التحقق مما إذا كان طلب GPTBot المزعوم ينشأ بالفعل من شبكة OpenAI.
وراء GPTBot، يتوسع مشهد زاحف الذكاء الاصطناعي بسرعة. Anthropic و Perplexity و Meta والعديد من شركات الذكاء الاصطناعي الأصغر تعمل جميعا زواحف ويب بدرجات متفاوتة من الشفافية حول أنشطتها. يمكن انتحال صفة كل من هذه الزواحف، وكل انتحال يحمل آثاره الخاصة اعتمادا على كيفية معاملة الموقع المستهدف لهذا الزاحف بالذات. موقع يحظر جميع زواحف الذكاء الاصطناعي باستثناء GPTBot، على سبيل المثال، ينشئ حافزا قويا لمكاشط لانتحال صفة GPTBot بشكل خاص، لأنها الهوية الوحيدة التي سيتم تقديم المحتوى لها بدون قيود.
اللاعبون الأصغر والذيل الطويل لانتحال هوية الروبوت
يمتد النظام البيئي للروبوتات بعيدا وراء جوجل وبينغ وOpenAI. يدير Yandex زاحف كبير للويب الروسي، والروبوتات Yandex المزيفة شائعة على المواقع التي تحتوي على محتوى باللغة الروسية أو التي تخدم محتوى مختلفا لـ Yandex. يتم انتحال صفة زاحف DuckDuckGo، DuckDuckBot، على الرغم من حصة DuckDuckGo الصغيرة نسبيا من السوق، لأن المواقع التي تقدم للمستخدمين الذين يهتمون بالخصوصية غالبا ما تمنح DuckDuckBot وصولا تفضيليا. يتم انتحال صفة Qwant محرك البحث الفرنسي و Seznam محرك البحث التشيكي، كلاهما له زواحف يتم انتحال صفتها في أسواقهما الإقليمية الخاصة.
تعمل منهجية التحقق بشكل متطابق لجميعهم. يعمل كل زاحف شرعي من مجموعة معروفة من عناوين IP المرتبطة بالبنية التحتية للشبكة لمشغله. يحدد ASN الشبكة. يؤكد DNS العكسي اسم المضيف. يؤكد DNS الأمامي IP. هذه السلسلة من التحقق عامة وتنطبق بغض النظر عن الزاحف المحدد الذي يتم فحصه. الفرق هو فقط في بيانات المرجع: أي ASNs وأي أنماط اسم المضيف وأي نطاقات IP تنتمي إلى كل زاحف. API كشف الروبوتات تحتفظ بمجموعات البيانات المرجعية هذه لثمانية زواحف رئيسية وتوفر التحقق كدعوة API واحدة.
يتضمن الذيل الطويل من النظام البيئي للروبوتات أيضا زواحف لا تنتحل صفة أي شخص على الإطلاق. هؤلاء هم الروبوتات الصادقة. أدوات تحسين محركات البحث مثل Ahrefs و SEMrush و Moz تعمل زواحف تحدد نفسها بدقة في سلاسل وكيل المستخدم الخاصة بها. خدمات المقارنة بالأسعار وزواحف البحث الأكاديمي ومدققات إمكانية الوصول ومدققات الروابط جميعها تعلن عن هويتها الحقيقية. قد تكون هذه الروبوتات مرحب بها أم لا على أي موقع معين، لكن على الأقل يمكن لمشغل الموقع الحصول على معلومات لاتخاذ قرار مستنير حول السماح بها. المشكلة محددة بالمحتالين، والروبوتات التي تكذب حول من يكونون من أجل الحصول على وصول لن يحصلوا عليه بطريقة أخرى.
بناء دفاع قائم على التحقق من الهوية
الدفاع العملي ضد انتحال هوية الروبوت مباشر بمجرد وضع آلية التحقق في مكانها. يتم التحقق من كل طلب وارد يدعي أنه من زاحف محرك بحث مقابل البنية التحتية المعروفة للزاحف. الطلبات التي تمر التحقق يتم السماح بها من خلال أي امتيازات يمنحها الموقع لذلك الزاحف. يتم حظر الطلبات التي تفشل التحقق أو معاملتها كحركة مرور عام بناء على حدود معدل الموقع وضوابط الوصول القياسية.
هذا النهج متفوق على تحليل السلوك لعدة أسباب. يحاول تحليل السلوك تحديد ما إذا كان الزائر روبوت بناء على كيفية تفاعله مع الموقع: معدل الطلب وأنماط الملاحة وتنفيذ JavaScript وحركات الماوس. هذه الإشارات مزعجة، وتولد إيجابيات كاذبة، ويمكن هزيمتها بروبوتات متطورة بدرجة كافية تحاكي السلوك البشري. التحقق القائم على IP، بالمقابل، ينتج نتيجة ثنائية بدون إيجابيات كاذبة. طلب إما ينشأ من شبكة جوجل أو لا. لا يوجد غموض، لا حد لضبطه، ولا نموذج سلوكي للتدريب.
التطبيق لا يحتاج إلى أن يكون متزامنا مع كل طلب للمواقع التي يكون فيها الكمون مصدر قلق. يمكن تشغيل التحقق بشكل غير متزامن، مع تخزين النتائج في ذاكرة التخزين المؤقت لكل عنوان IP. بمجرد التحقق من عنوان IP باعتباره ينتمي إلى Googlebot، يمكن السماح بجميع الطلبات اللاحقة من عنوان IP هذا دون إعادة تحقق لفترة قابلة للتكوين. يضيف هذا النهج زمن تأخير لا يكاد يذكر لخط أنابيب الطلب مع توفير حماية شاملة ضد الانتحال. تعكس فترة التخزين المؤقت مقايضة: يعني التخزين المؤقت الأطول عدد استدعاءات API أقل لكن نافذة أكبر قليلا حيث يمكن نظريا تغيير ملكية عنوان IP الذي تم التحقق منه مسبقا. في الواقع، توزيعات IP لمحرك البحث مستقرة للغاية، ومدة التخزين المؤقت بمدة أربع وعشرين ساعة أو أكثر آمنة لمعظم التطبيقات.
نتيجة تطبيق التحقق من الروبوتات القائم على الهوية هي عرض أنظف وأكثر صدقا لما يضرب الخادم فعليا. يتم الترحيب بالزواحف الحقيقية. يتم فضح الزواحف المزيفة وحظرها. بيانات التحليلات تعكس الواقع بدلا من الخيال. يتم تخصيص موارد الخادم للزوار الحقيقيين والزواحف الشرعية بدلا من إضاعتها على المحتالين. علم حيوان روبوتات الإنترنت معقد ويتطور بشكل مستمر، لكن المبدأ الأساسي للتحقق بواسطة أصل الشبكة يظل فعالا بغض النظر عن كيفية تغير النظام البيئي للروبوتات.
الأسئلة الشائعة
كيف أتحقق مما إذا كان الطلب بالفعل من Googlebot؟
قم بإجراء بحث DNS عكسي على عنوان IP وتأكد من أن اسم المضيف ينتهي بـ googlebot.com أو google.com. ثم قم بإجراء بحث DNS أمامي على هذا الاسم المضيف وتأكد من أنه ينحل مرة أخرى إلى عنوان IP ذاته. بدلا من ذلك، تحقق من أن عنوان IP ينتمي إلى AS15169، وهو النظام المستقل لجوجل. API كشف الروبوتات ينفذ كل هذه الفحوصات في استدعاء واحد.
هل يمكن لروبوت أن يزيف عنوان IP الخاص به ليظهر باسم Googlebot؟
لا يمكن تزييف عناوين IP لاتصالات TCP لأن بروتوكول TCP يتطلب اتصالا ثنائي الاتجاه. يمكن لروبوت أن يزيف سلسلة وكيل المستخدم بسهولة، لكنه لا يمكنه إنشاء اتصال TCP مع عنوان IP مصدر مزيف. هذا هو السبب في أن التحقق القائم على IP حاسم بينما التعريف القائم على وكيل المستخدم ليس كذلك.
ما هو ASN ولماذا يعتبر مهما لكشف الروبوتات؟
ASN أو رقم النظام المستقل يحدد الشبكة التي تدير بها منظمة واحدة. شبكة جوجل هي AS15169، تستخدم مايكروسوفت عدة أرقام ASN، و OpenAI لديها نطاقات معينة خاصة بها. يكشف فحص IP الروبوت مقابل ASN المتوقع على الفور ما إذا كان الطلب يأتي من البنية التحتية للمنظمة المزعومة أو من مركز بيانات غير ذي صلة.
هل يجب أن أحظر جميع الروبوتات التي تفشل التحقق؟
حظر الروبوتات التي تنتحل صفة محركات بحث محددة آمن بشكل عام وموصى به. ومع ذلك، ليست كل الروبوتات غير المتحقق منها خبيثة. بعضها أدوات شرعية ببساطة لا تنتحل صفة الزواحف. التمييز الرئيسي هو بين الروبوتات التي تكذب حول هويتها، والتي يجب حظرها، والروبوتات التي تعرّف نفسها بصراحة، والتي يمكن تقييمها على حدة.
ما مدى شيوع انتحال هوية الروبوت على مواقع ويب عادية؟
يختلف الانتشار حسب حجم الموقع ونوع المحتوى. تميل المواقع التي تتمتع بسلطة مجال عالية أو محتوى قيم أو عدد كبير من الصفحات إلى جذب المزيد من الزواحف المزيفة. تشير بيانات الصناعة إلى أن حركة الروبوتات تمثل ثلاثين إلى خمسين بالمائة من جميع حركة الويب عالميا، وجزء كبير من ذلك يمثل حركة انتحال تدعي أنها زواحف شرعية لمحرك البحث.
هل يؤثر حظر الروبوتات المزيفة على فهرسة محرك البحث الحقيقية؟
لا. يؤثر الحظر المستند إلى التحقق فقط على الطلبات من عناوين IP التي لا تنتمي إلى محرك البحث المزعوم. Googlebot الحقيقي و Bingbot والزواحف الشرعية الأخرى تمر التحقق وتواصل الوصول إلى الموقع بشكل طبيعي. التأثير الوحيد هو على المحتالين.