Το διαδίκτυο έχει ένα πρόβλημα άγριας ζωής. Κάτω από την επιφάνεια της ανθρώπινης δραστηριότητας περιήγησης υπάρχει ένα ολόκληρο οικοσύστημα αυτοματοποιημένων προγραμμάτων που σαρώνουν, αποσπούν, ερευνούν και ζητούν ιστοσελίδες σε τεράστια κλίμακα. Ορισμένα από αυτά τα bots είναι χρήσιμα. Το crawler της Google ευρετηριάζει τις σελίδες ώστε να εμφανίζονται στα αποτελέσματα αναζήτησης. Το crawler του Bing κάνει το ίδιο για τη μηχανή αναζήτησης της Microsoft. Το crawler της OpenAI συλλέγει δεδομένα εκπαίδευσης για μοντέλα γλώσσας. Αυτοί οι νόμιμοι crawlers αναγνωρίζουν τους εαυτούς τους με ειλικρίνεια, ακολουθούν τους κανόνες που καθορίζονται στα αρχεία robots.txt και λειτουργούν από γνωστή υποδομή. Αλλά για κάθε νόμιμο crawler, υπάρχουν δεκάδες απατεώνες που φορούν το ίδιο όνομα εταιρείας ενώ κάνουν κάτι τελείως διαφορετικό. Δηλώνονται ως Googlebot στη συμβολοσειρά user agent τους, ισχυρίζονται ότι ευρετηριάζουν σελίδες για αναζήτηση και βασίζονται στο γεγονός ότι οι περισσότεροι διακομιστές web θα τους δώσουν προτιμησιακή μεταχείριση βάσει αυτής της δηλωθείσας ταυτότητας. Η ζωολογία αυτών των διαδικτυακών bots είναι τόσο περίπλοκη, ανταγωνιστική και περίτεχνη όσο οποιοδήποτε βιολογικό οικοσύστημα.
Η κατανόηση αυτού του οικοσυστήματος είναι σημαντική για οποιονδήποτε λειτουργεί μια ιστοσελίδα, επειδή η απόφαση να εμπιστευθεί ή να αποκλείσει ένα bot έχει άμεσες συνέπειες. Το αποκλεισμό ενός πραγματικού crawler μηχανής αναζήτησης σημαίνει ότι οι σελίδες σταματούν να εμφανίζονται στα αποτελέσματα αναζήτησης. Το να εμπιστευθεί κάποιος ένα fake σημαίνει να επιτρέψει σε έναν scraper, ένα εργαλείο ανταγωνιστικής νοημοσύνης ή ένα κακόβουλο actor να καταναλώσει πόρους διακομιστή ενώ προσποιείται ότι παρέχει αξία. Η ικανότητα να διακρίνει κάποιος μεταξύ πραγματικών και fake crawlers δεν είναι μια θεωρητική άσκηση ασφαλείας. Είναι μια πρακτική ανάγκη που επηρεάζει το κόστος εύρους ζώνης, την απόδοση του διακομιστή, την ακρίβεια της ανάλυσης και την προστασία του περιεχομένου. Το bot detection API υπάρχει ακριβώς για αυτόν τον σκοπό, παρέχοντας οριστική επαλήθευση της ταυτότητας του crawler βάσει του ενός πράγματος που δεν μπορεί να παραποιηθεί: της υποδομής δικτύου από την οποία συνδέεται το bot.
Τα Είδη του Fake Googlebot
Το Googlebot είναι ο περισσότερο απατημένος crawler στο διαδίκτυο, και οι λόγοι είναι προφανείς. Οι ιστοσελίδες χορηγούν τακτικά στο Googlebot ειδικά προνόμια. Τα όρια ρυθμού μειώνονται. Τα τείχη πληρωμής αίρονται. Το περιεχόμενο που κρύβεται πίσω από την απόδοση JavaScript προ-αποδίδεται ειδικά για το crawler της Google. Οι κανόνες robots.txt συχνά επιτρέπουν ρητά στο Googlebot πρόσβαση σε ενότητες που είναι περιορισμένες για άλλα crawlers. Ισχυριζόμενος ότι είναι Googlebot, ένα fake crawler κληρονομεί όλα αυτά τα προνόμια χωρίς να κερδίσει κανένα από αυτά. Η ιστοσελίδα εξυπηρετεί το καλύτερο περιεχόμενό της, τις ταχύτερες απαντήσεις και τις πιο πλήρες σελίδες σε αυτό που πιστεύει ότι είναι η υποδομή ευρετηρίασης της Google, όταν στην πραγματικότητα ο παραλήπτης είναι ένας scraper που λειτουργεί από έναν ενοικιαμένο διακομιστή σε ένα κέντρο δεδομένων.
Το πραγματικό Googlebot είναι αναγνωρίσιμο με απόλυτη βεβαιότητα. Λειτουργεί αποκλειστικά από διευθύνσεις IP εντός του ανεξάρτητου συστήματος της Google, AS15169. Μια αντίστροφη αναζήτηση DNS σε οποιαδήποτε πραγματική διεύθυνση IP του Googlebot επιστρέφει ένα όνομα κεντρικού υπολογιστή που τελειώνει σε googlebot.com ή google.com. Μια προς τα εμπρός αναζήτηση DNS σε αυτό το όνομα κεντρικού υπολογιστή επιλύει πίσω στην αρχική διεύθυνση IP. Αυτή η αλυσίδα επαλήθευσης τριών βημάτων, IP σε όνομα κεντρικού υπολογιστή σε IP, είναι κρυπτογραφικά δεμένη στην υποδομή DNS της Google και δεν μπορεί να παραποιηθεί χωρίς να συγκροτηθούν οι διακομιστές DNS της Google, κάτι που είναι ουσιαστικά αδύνατο. Το Google bot detector εκτελεί αυτή την ακριβή αλυσίδα επαλήθευσης και επιστρέφει ένα οριστικό αποτέλεσμα.
Το Fake Googlebot, αντίθετα, προέρχεται από τη γενική υποδομή υπολογιστικού νέφους που οποιοσδήποτε μπορεί να ενοικιάσει ανά ώρα. Amazon Web Services, Google Cloud Platform (ειρωνικά), Microsoft Azure, DigitalOcean, Hetzner, OVH και Contabo είναι κοινές προελεύσεις. Η συμβολοσειρά user agent αντιγράφεται λέξη προς λέξη από το πραγματικό Googlebot, συχνά συμπεριλαμβανομένου του αριθμού έκδοσης και της μορφής URL σάρωσης. Ορισμένα περίτεχνα fakes ακόμη και απομιμούνται τα πρότυπα αιτημάτων του Googlebot, απόσταση τα αιτήματά τους και ακολουθούν τους συνδέσμους σε ένα μοτίβο που μοιάζει με νόμιμη σάρωση. Αλλά η διεύθυνση IP τα δίνει μακριά κάθε φορά. Κανένα ποσό συμπεριφορικής απομίμησης δεν μπορεί να αλλάξει το γεγονός ότι το αίτημα προέρχεται από AS16509 (Amazon) αντί για AS15169 (Google).
Bingbot και οι Απατεώνες του
Το Bingbot της Microsoft είναι ο δεύτερος πιο συχνά απατημένος crawler, και η επαλήθευσή του ακολουθεί ένα παρόμοιο μοτίβο με το Googlebot αλλά με ορισμένες σημαντικές διαφορές. Το πραγματικό Bingbot λειτουργεί από την υποδομή της Microsoft και οι διευθύνσεις IP του επιλύονται μέσω αντίστροφης DNS σε ονόματα κεντρικών υπολογιστών εντός του τομέα search.msn.com. Οι έλεγχοι επαλήθευσης ASN ελέγχονται ως προς τα ανεξάρτητα συστήματα της Microsoft, τα οποία περιλαμβάνουν πολλαπλά ASN λόγω της εκτενούς υποδομής δικτύου της εταιρείας. Η επαλήθευση είναι εξίσου αξιόπιστη αλλά απαιτεί ενημέρωση σχετικά με την ευρύτερη κατανομή IP της Microsoft σε σύγκριση με το πιο συνενωμένο εύρος της Google.
Το Fake Bingbot χρησιμεύει σε πολλούς από τους ίδιους σκοπούς με το Fake Googlebot αλλά εμφανίζεται σε κάπως χαμηλότερους όγκους, ανακλώντας το μικρότερο μερίδιο αγοράς του Bing και το αντίστοιχα μικρότερο κίνητρο για απατη του. Ωστόσο, οι ιστοσελίδες που βελτιστοποιούν ειδικά για το Bing ή που εξυπηρετούν διαφορετικό περιεχόμενο σε Bingbot έλκουν δυσανάλογη απατη. Τα εργαλεία SEO που αναλύουν πώς μια σελίδα εμφανίζεται στο crawler του Bing συχνά χρησιμοποιούν fake Bingbot user agents για να ανακτήσουν την έκδοση που ειδικά προορίζεται για το Bing. Οι υπηρεσίες ανταγωνιστικής νοημοσύνης κάνουν το ίδιο για να δουν τι περιεχόμενο εξυπηρετούν οι ανταγωνιστές ειδικά στην υποδομή αναζήτησης της Microsoft.
Η μεθοδολογία ανίχνευσης είναι πανομοιότυπη κατ' αρχήν. Ελέγξτε τη διεύθυνση IP ως προς τα γνωστά εύρη της Microsoft. Εκτελέστε την αντίστροφη και προς τα εμπρός επαλήθευση DNS. Επιβεβαιώστε ότι το ASN ταιριάζει. Ένα αίτημα που ισχυρίζεται ότι είναι Bingbot που προέρχεται από έναν διακομιστή Hetzner στη Φινλανδία είναι fake με απόλυτη βεβαιότητα, ανεξάρτητα από το πόσο πειστικά είναι διατυπωμένη η συμβολοσειρά user agent. Το bot detection API χειρίζεται αυτή την επαλήθευση αυτόματα, ελέγχοντας τη δηλωθείσα ταυτότητα ως προς την πραγματική προέλευση δικτύου και επιστρέφοντας μια σαφή απόφαση.
Το ChatGPT Crawler και το Νέο Κύμα Bots AI
Η εμφάνιση μεγάλων μοντέλων γλώσσας έχει δημιουργήσει μια εντελώς νέα κατηγορία web crawlers και μια εντελώς νέα κατηγορία απατης. Το GPTBot της OpenAI σαρώνει το διαδίκτυο για συλλογή δεδομένων εκπαίδευσης και η παρουσία του έχει γίνει ένα από τα πιο αμφιλεγόμενα θέματα στις δημοσιεύσεις του web. Πολλοί εκδότες θέλουν να αποκλείσουν το GPTBot για να αποτρέψουν το περιεχόμενό τους από χρήση για εκπαίδευση AI. Άλλοι θέλουν να το επιτρέψουν, ελπίζοντας σε ευνοϊκή μεταχείριση στις απαντήσεις του ChatGPT. Σε κάθε περίπτωση, η ικανότητα να διακρίνει πραγματικό GPTBot από fake εκδόσεις είναι κρίσιμη για τη θέσπιση οποιασδήποτε πολιτικής έχει επιλέξει ο εκδότης.
Το πραγματικό GPTBot, όπως το πραγματικό Googlebot, λειτουργεί από ένα συγκεκριμένο σύνολο διευθύνσεων IP που σχετίζονται με την υποδομή της OpenAI. Η συμβολοσειρά user agent αναγνωρίζει τον εαυτό της με σαφήνεια και τα εύρη IP δημοσιεύονται και είναι επαληθεύσιμα. Το Fake GPTBot, το οποίο έχει πολλαπλασιαστεί γρήγορα μετά την εκκίνηση του ChatGPT, χρησιμοποιεί την ίδια συμβολοσειρά user agent αλλά συνδέεται από άσχετη υποδομή. Τα κίνητρα για απατη του GPTBot είναι ποικίλα. Ορισμένοι scrapers το χρησιμοποιούν επειδή οι εκδότες που έχουν αποφασίσει να επιτρέψουν AI training crawlers θα εξυπηρετήσουν περιεχόμενο ελεύθερα σε οτιδήποτε ισχυρίζεται ότι είναι GPTBot. Άλλοι το χρησιμοποιούν ως γενική ταυτότητα κάλυψης, βασιζόμενοι στην υπόθεση ότι οι διαχειριστές διακομιστή είναι λιγότερο εξοικειωμένοι με τα εύρη IP της OpenAI από ό,τι με τα εύρη της Google και επομένως λιγότερο πιθανό να επαληθεύσουν τη δήλωση. Το OpenAI crawler detector αντιμετωπίζει αυτό άμεσα, επαληθεύοντας εάν ένα δηλωθέν αίτημα GPTBot προέρχεται πραγματικά από το δίκτυο της OpenAI.
Πέραν του GPTBot, το τοπίο AI crawler επεκτείνεται γρήγορα. Η Anthropic, Perplexity, Meta και πολλές μικρότερες AI εταιρείες όλες λειτουργούν web crawlers με ποικίλους βαθμούς διαφάνειας σχετικά με τις δραστηριότητές τους. Καθένα από αυτά τα crawlers μπορεί να απατηθεί και κάθε απατη φέρει τις δικές της συνέπειες ανάλογα με το πώς ο τοποθεσίας στόχος μεταχειρίζεται αυτό το συγκεκριμένο crawler. Μια τοποθεσία που αποκλείει όλα τα AI crawlers εκτός του GPTBot, για παράδειγμα, δημιουργεί έναν ισχυρό κίνητρο για scrapers να απατήσουν ειδικά το GPTBot, επειδή είναι η μία ταυτότητα που θα εξυπηρετηθεί περιεχόμενο χωρίς περιορισμό.
Οι Μικρότεροι Παίκτες και η Μακρά Ουρά Απατης Bot
Το οικοσύστημα bot επεκτείνεται πολύ πέραν της Google, του Bing και της OpenAI. Η Yandex λειτουργεί ένα σημαντικό crawler για το ρώσικο web και τα fake Yandex bots είναι κοινά σε τοποθεσίες με περιεχόμενο ρώσικης γλώσσας ή που εξυπηρετούν ειδικά διαφορετικό περιεχόμενο στο Yandex. Το DuckDuckBot του DuckDuckGo, το crawler του DuckDuckGo, απατάται παρά τo DuckDuckGo να έχει σχετικά μικρό μερίδιο αγοράς, επειδή οι ιστοσελίδες που φροντίζουν για χρήστες που ενδιαφέρονται για το απόρρητο συχνά δίνουν ειδική πρόσβαση στο DuckDuckBot. Η Qwant, η γαλλική μηχανή αναζήτησης και η Seznam, η τσεχική μηχανή αναζήτησης, και οι δύο έχουν crawlers που απατώνται στις αντίστοιχες περιφερειακές αγορές τους.
Η μεθοδολογία επαλήθευσης λειτουργεί πανομοιότυπα για όλους τους περισσότερους. Κάθε νόμιμο crawler λειτουργεί από ένα γνωστό σύνολο διευθύνσεων IP που σχετίζονται με την υποδομή δικτύου του χειριστή του. Το ASN αναγνωρίζει το δίκτυο. Η αντίστροφη DNS επιβεβαιώνει το όνομα κεντρικού υπολογιστή. Η προς τα εμπρός DNS επιβεβαιώνει τη διεύθυνση IP. Αυτή η αλυσίδα επαλήθευσης είναι καθολική και ισχύει ανεξάρτητα από το συγκεκριμένο crawler που ελέγχεται. Η διαφορά είναι μόνο στα δεδομένα αναφοράς: ποια ASN, ποια μοτίβα ονόματος κεντρικού υπολογιστή και ποια εύρη IP ανήκουν σε κάθε crawler. Το bot detection API διατηρεί αυτά τα σύνολα δεδομένων αναφοράς για οκτώ κύρια crawlers και παρέχει την επαλήθευση ως ένα μόνο κλήση API.
Η μακρά ουρά του οικοσυστήματος bot περιλαμβάνει επίσης crawlers που δεν απατούν κανέναν καθόλου. Αυτά είναι τα ειλικρινή bots. Τα εργαλεία SEO όπως το Ahrefs, SEMrush και Moz λειτουργούν crawlers που αναγνωρίζουν τον εαυτό τους με ακρίβεια στις συμβολοσειρές user agent τους. Οι υπηρεσίες σύγκρισης τιμών, τα academic research crawlers, οι έλεγχοι προσβασιμότητας και οι επαληθευτές συνδέσμων όλοι δηλώνουν την αληθινή τους ταυτότητα. Αυτά τα bots μπορεί ή δεν μπορεί να είναι επιθυμητά σε οποιαδήποτε δεδομένη τοποθεσία, αλλά τουλάχιστον ο χειριστής τοποθεσία μπορεί να λάβει μια ενημερωμένη απόφαση σχετικά με το εάν θα τα επιτρέψει. Το πρόβλημα είναι ειδικά με τους απατεώνες, τα bots που λένε ψέματα για το ποιοι είναι ώστε να αποκτήσουν πρόσβαση που δεν θα έλαβαν διαφορετικά.
Χτίζοντας μια Άμυνα Βασισμένη σε Επαλήθευση Ταυτότητας
Η πρακτική άμυνα κατά της απατης bot είναι απλή μόλις η μηχανισμός επαλήθευσης είναι στη θέση του. Κάθε εισερχόμενο αίτημα που ισχυρίζεται ότι είναι από ένα crawler μηχανής αναζήτησης ελέγχεται ως προς τη γνωστή υποδομή του crawler. Τα αιτήματα που διέρχονται την επαλήθευση επιτρέπεται να περάσουν με οποιαδήποτε προνόμια το δίκτυο χορηγεί σε αυτό το crawler. Τα αιτήματα που αποτυγχάνουν την επαλήθευση είτε αποκλείονται εντελώς είτε αντιμετωπίζονται ως γενική κυκλοφορία που υπόκειται στη στάνταρ περιορισμό ρυθμού και περιορισμούς πρόσβασης της τοποθεσίας.
Αυτή η προσέγγιση είναι ανώτερη σε σχέση με την ανάλυση συμπεριφοράς για αρκετούς λόγους. Η ανάλυση συμπεριφοράς προσπαθεί να καθορίσει εάν ένας επισκέπτης είναι ένα bot βάσει του πώς αλληλεπιδρά με την τοποθεσία: ρυθμός αιτήματος, μοτίβα πλοήγησης, εκτέλεση JavaScript, κινήσεις ποντικιού. Αυτά τα σήματα είναι θορυβώδη, δημιουργούν ψευδώς θετικά αποτελέσματα και μπορούν να νικηθούν από bots αρκετά εξελιγμένα που απομιμούνται τη συμπεριφορά του ανθρώπου. Η επαλήθευση βάσει IP, αντίθετα, παράγει ένα δυαδικό αποτέλεσμα με μηδενικά ψευδώς θετικά αποτελέσματα. Ένα αίτημα είτε προέρχεται από το δίκτυο της Google είτε δεν προέρχεται. Δεν υπάρχει διασάφηση, δεν υπάρχει κατώφλι για συντονισμό και δεν υπάρχει συμπεριφορικό μοντέλο για προπόνηση.
Η υλοποίηση δεν χρειάζεται να είναι σύγχρονη με κάθε αίτημα για τοποθεσίες όπου η καθυστέρηση είναι ανησυχία. Η επαλήθευση μπορεί να εκτελεστεί ασύγχρονα, με αποτελέσματα που αποθηκεύονται στη μνήμη ανά διεύθυνση IP. Μόλις μια διεύθυνση IP επαληθευτεί ότι ανήκει σε Googlebot, όλα τα επόμενα αιτήματα από αυτή τη διεύθυνση IP μπορούν να επιτραπούν χωρίς επανα-επαλήθευση για ένα ρυθμιζόμενο χρονικό διάστημα. Αυτή η προσέγγιση προσθέτει αμελητέα καθυστέρηση στον αγωγό αιτημάτων ενώ παρέχει ολοκληρωμένη προστασία κατά της απατης. Η περίοδος αποθήκευσης στη μνήμη ανακλά ένα ισοζύγιο: η μεγαλύτερη αποθήκευση στη μνήμη σημαίνει λιγότερες κλήσεις API αλλά ένα ελαφρώς μεγαλύτερο παράθυρο όπου μια προηγουμένως επαληθευθείσα διεύθυνση IP θα μπορούσε θεωρητικά να αλλάξει ιδιοκτησία. Στην πράξη, οι κατανομές IP της μηχανής αναζήτησης είναι εξαιρετικά σταθερές και διάρκειες αποθήκευσης στη μνήμη είκοσι τέσσερις ώρες ή περισσότερο είναι ασφαλείς για τις περισσότερες εφαρμογές.
Το αποτέλεσμα της υλοποίησης επαλήθευσης bot βάσει ταυτότητας είναι μια καθαρότερη, πιο ειλικρινής άποψη του τι ακριβώς χτυπά τον διακομιστή. Τα πραγματικά crawlers καλώς ορίστε. Τα fake crawlers εκτίθενται και αποκλείονται. Τα δεδομένα ανάλυσης αντικατοπτρίζουν την πραγματικότητα αντί της φαντασίας. Οι πόροι του διακομιστή κατανέμονται σε πραγματικούς επισκέπτες και νόμιμα crawlers αντί να χάνονται σε απατεώνες. Η ζωολογία των διαδικτυακών bots είναι περίπλοκη και συνεχώς εξελίσσεται, αλλά η θεμελιώδης αρχή της επαλήθευσης ανά προέλευση δικτύου παραμένει αποτελεσματική ανεξάρτητα από το πώς αλλάζει το οικοσύστημα bot.
Συχνές Ερωτήσεις
Πώς μπορώ να επαληθεύσω αν ένα αίτημα είναι πραγματικά από το Googlebot;
Εκτελέστε μια αντίστροφη αναζήτηση DNS στη διεύθυνση IP και επιβεβαιώστε ότι το όνομα κεντρικού υπολογιστή τελειώνει σε googlebot.com ή google.com. Στη συνέχεια, κάντε μια προς τα εμπρός αναζήτηση DNS σε αυτό το όνομα κεντρικού υπολογιστή και επιβεβαιώστε ότι επιλύεται πίσω στην ίδια διεύθυνση IP. Εναλλακτικά, ελέγξτε ότι η διεύθυνση IP ανήκει στο AS15169, που είναι το ανεξάρτητο σύστημα της Google. Το API ανίχνευσης bot εκτελεί όλα αυτά τους ελέγχους σε μία κλήση.
Μπορεί ένα bot να παραποιήσει την διεύθυνση IP του για να εμφανιστεί ως Googlebot;
Οι διευθύνσεις IP δεν μπορούν να παραποιηθούν για συνδέσεις TCP επειδή το handshake TCP απαιτεί δίδιμη επικοινωνία. Ένα bot μπορεί να παραποιήσει μια συμβολοσειρά user agent ευκολότατα, αλλά δεν μπορεί να δημιουργήσει μια σύνδεση TCP με μια παραποιημένη διεύθυνση IP προέλευσης. Αυτός είναι ο λόγος για τον οποίο η επαλήθευση βάσει IP είναι οριστική ενώ ο αναγνωρισμός που βασίζεται στη συμβολοσειρά user agent δεν είναι.
Τι είναι ένα ASN και γιατί έχει σημασία για την ανίχνευση bot;
Ένα ASN ή Autonomous System Number αναγνωρίζει ένα δίκτυο που λειτουργείται από έναν μόνο οργανισμό. Το δίκτυο της Google είναι AS15169, η Microsoft χρησιμοποιεί πολλαπλά ASN και η OpenAI έχει τα δικά της καθορισμένα εύρη. Ο έλεγχος της διεύθυνσης IP ενός bot ως προς το αναμενόμενο ASN αμέσως αποκαλύπτει εάν το αίτημα προέρχεται από την υποδομή του δηλωθέντος οργανισμού ή από ένα άσχετο κέντρο δεδομένων.
Θα πρέπει να αποκλείσω όλα τα bots που αποτυγχάνουν την επαλήθευση;
Ο αποκλεισμός bots που απατούν συγκεκριμένες μηχανές αναζήτησης είναι γενικά ασφαλής και συνιστάται. Ωστόσο, δεν είναι όλα τα μη επαληθευμένα bots κακόβουλα. Ορισμένα είναι νόμιμα εργαλεία που απλώς δεν απατούν crawlers. Η κύρια διάκριση είναι μεταξύ bots που λένε ψέματα για την ταυτότητά τους, τα οποία θα πρέπει να αποκλειστούν και bots που ειλικρινά αναγνωρίζουν τον εαυτό τους, τα οποία μπορούν να αξιολογηθούν ξεχωριστά.
Πόσο κοινή είναι η απατη bot σε τυπικές ιστοσελίδες;
Η επικράτηση ποικίλει ανάλογα με το μέγεθος και τον τύπο περιεχομένου της τοποθεσίας. Οι τοποθεσίες με υψηλή εξουσία τομέα, πολύτιμο περιεχόμενο ή μεγάλους αριθμούς σελίδων τείνουν να έλκουν περισσότερα fake crawlers. Τα δεδομένα της βιομηχανίας προτείνουν ότι η κυκλοφορία bot λογαριάζει για τριάντα έως πενήντα τοις εκατό της συνολικής κυκλοφορίας του διαδικτύου παγκοσμίως και ένα σημαντικό μέρος αυτού είναι κυκλοφορία απατης που ισχυρίζεται ότι είναι νόμιμα crawlers της μηχανής αναζήτησης.
Αποτελεί η αποκλεισμός fake bots την ευρετηρίαση της πραγματικής μηχανής αναζήτησης;
Όχι. Ο αποκλεισμός που βασίζεται σε επαλήθευση μόνο επηρεάζει τα αιτήματα από διευθύνσεις IP που δεν ανήκουν σε δηλωθείσα μηχανή αναζήτησης. Το πραγματικό Googlebot, Bingbot και άλλα νόμιμα crawlers διέρχονται τη επαλήθευση και συνεχίζουν να έχουν πρόσβαση στην τοποθεσία κανονικά. Η μόνη επιπτώσεις είναι σε απατεώνες.