GoogleBot Giả, Trình Crawl ChatGPT Giả, Bing Giả và Hệ Sinh Thái Động Vật Bots Internet

Internet có một vấn đề về động vật hoang dã. Dưới bề mặt của hoạt động duyệt web của con người tồn tại toàn bộ hệ sinh thái gồm những chương trình tự động crawling, scraping, probing và yêu cầu các trang web ở quy mô khổng lồ. Một số bots này là có lợi. Trình crawl của Google lập chỉ mục các trang để chúng xuất hiện trong kết quả tìm kiếm. Trình crawl của Bing làm tương tự cho công cụ tìm kiếm của Microsoft. Trình crawl của OpenAI thu thập dữ liệu đào tạo cho các mô hình ngôn ngữ. Những trình crawl hợp pháp này tự xác định một cách trung thực, tuân theo các quy tắc được chỉ định trong tệp robots.txt và hoạt động từ hạ tầng đã biết. Nhưng với mỗi trình crawl hợp pháp, có hàng chục kẻ giả mạo đeo cùng một thẻ tên trong khi làm điều gì đó hoàn toàn khác. Họ tuyên bố mình là Googlebot trong chuỗi user agent, tuyên bố lập chỉ mục các trang để tìm kiếm và dựa trên thực tế rằng hầu hết các máy chủ web sẽ cấp cho họ quyền ưu tiên dựa trên danh tính được tuyên bố này. Hệ sinh thái động vật của những internet bots này phức tạp, cạnh tranh và thỉnh thoảng kỳ lạ như bất kỳ hệ sinh thái sinh học nào.

Hiểu rõ hệ sinh thái này rất quan trọng với bất kỳ ai vận hành một trang web, vì quyết định tin tưởng hoặc chặn một bot có hậu quả trực tiếp. Chặn một trình crawl công cụ tìm kiếm thực sự có nghĩa là các trang ngừng xuất hiện trong kết quả tìm kiếm. Tin tưởng một trình giả có nghĩa là cho phép một scraper, công cụ trí tuệ cạnh tranh hoặc một diễn viên độc hại tiêu thụ tài nguyên máy chủ trong khi tuyên bố cung cấp giá trị. Khả năng phân biệt giữa những trình crawl giả và thực không phải là một bài tập bảo mật lý thuyết. Đó là một nhu cầu thực tế ảnh hưởng đến chi phí băng thông, hiệu suất máy chủ, độ chính xác phân tích và bảo vệ nội dung. API nhận dạng bot tồn tại chính vì lý do này, cung cấp xác minh chắc chắn về danh tính trình crawl dựa trên một điều không thể giả mạo: hạ tầng mạng mà từ đó bot kết nối.

Các Loài GoogleBot Giả

Googlebot là trình crawl được giả mạo nhiều nhất trên internet, và những lý do là rõ ràng. Các trang web thường cấp cho Googlebot các đặc quyền đặc biệt. Giới hạn tốc độ được nới lỏng. Các tường lửa thanh toán bị xóa. Nội dung ẩn sau khu vực kết xuất JavaScript được kết xuất trước đặc biệt cho trình crawl của Google. Các quy tắc robots.txt thường cho phép rõ ràng truy cập Googlebot vào các phần bị hạn chế đối với những trình crawl khác. Bằng cách tuyên bố mình là Googlebot, một trình crawl giả kế thừa tất cả những đặc quyền này mà không kiếm được bất kỳ. Trang web phục vụ nội dung tốt nhất, phản hồi nhanh nhất và các trang hoàn chỉnh nhất cho những gì nó tin là hạ tầng lập chỉ mục của Google, khi thực tế người nhận là một scraper hoạt động từ một máy chủ được thuê trong một trung tâm dữ liệu.

GoogleBot thực sự có thể được nhận dạng với độ chắc chắn tuyệt đối. Nó hoạt động độc quyền từ các địa chỉ IP trong hệ thống tự trị của Google, AS15169. Một tra cứu DNS ngược trên bất kỳ địa chỉ IP Googlebot thực sự nào sẽ trả về tên máy chủ kết thúc bằng googlebot.com hoặc google.com. Tra cứu DNS chuyển tiếp trên tên máy chủ đó giải quyết trở lại địa chỉ IP ban đầu. Chuỗi xác minh ba bước này, IP sang tên máy chủ sang IP, được ràng buộc về mật mã với hạ tầng DNS của Google và không thể được giả mạo mà không làm tổn hại đến các máy chủ DNS của Google, về cơ bản là không thể. Trình phát hiện bot Google thực hiện chuỗi xác minh chính xác này và trả về kết quả chắc chắn.

GoogleBot giả, ngược lại, bắt nguồn từ hạ tầng đa năng mà bất kỳ ai cũng có thể thuê theo giờ. Amazon Web Services, Google Cloud Platform (một cách trớ thoát), Microsoft Azure, DigitalOcean, Hetzner, OVH và Contabo là những nguồn gốc phổ biến. Chuỗi user agent được sao chép từ từ từ Googlebot thực sự, thường bao gồm cả số phiên bản và định dạng URL crawl. Một số bots giả tinh vi thậm chí còn bắt chước các mẫu yêu cầu của Googlebot, giãn cách các yêu cầu của họ và theo liên kết theo một mẫu giống như crawling hợp pháp. Nhưng địa chỉ IP lộ ra chúng mọi lúc. Không có lượng bắt chước hành vi nào có thể thay đổi thực tế rằng yêu cầu bắt nguồn từ AS16509 (Amazon) thay vì AS15169 (Google).

Bingbot và Những Kẻ Giả Mạo Của Nó

Bingbot của Microsoft là trình crawl được giả mạo phổ biến thứ hai, và xác minh của nó tuân theo một mẫu tương tự như Googlebot nhưng với một số khác biệt quan trọng. Bingbot thực sự hoạt động từ hạ tầng của Microsoft, và các địa chỉ IP của nó giải quyết qua DNS ngược sang tên máy chủ trong miền search.msn.com. Xác minh ASN kiểm tra lại các hệ thống tự trị của Microsoft, bao gồm một số ASN do công ty có cơ sở hạ tầng mạng rộng rãi. Xác minh cũng đáng tin cậy nhưng yêu cầu nhận thức về phân bổ IP rộng hơn của Microsoft so với phạm vi hợp nhất hơn của Google.

Bingbot giả phục vụ nhiều mục đích giống như Googlebot giả nhưng xuất hiện ở khối lượng thấp hơn, phản ánh thị phần nhỏ hơn của Bing và khuyến khích tương ứng nhỏ hơn để giả mạo nó. Tuy nhiên, những trang web tối ưu hóa cụ thể cho Bing hoặc những trang phục vụ nội dung khác cho Bingbot thu hút sự giả mạo không cân xứng. Các công cụ SEO phân tích cách một trang xuất hiện cho trình crawl của Bing thường sử dụng các user agent Bingbot giả để truy xuất phiên bản dành riêng cho Bing của các trang. Các dịch vụ trí tuệ cạnh tranh làm tương tự để xem nội dung nào các đối thủ phục vụ cụ thể cho hạ tầng tìm kiếm của Microsoft.

Phương pháp phát hiện giống hệt nhau về nguyên tắc. Kiểm tra địa chỉ IP với các phạm vi đã biết của Microsoft. Thực hiện xác minh DNS ngược và chuyển tiếp. Xác nhận ASN khớp với nhau. Một yêu cầu tuyên bố mình là Bingbot bắt nguồn từ máy chủ Hetzner ở Phần Lan là giả với độ chắc chắn tuyệt đối, bất kể chuỗi user agent được tạo dựng một cách thuyết phục. API nhận dạng bot xử lý xác minh này một cách tự động, kiểm tra danh tính được tuyên bố so với nguồn gốc mạng thực tế và trả về một phán quyết rõ ràng.

Trình Crawl ChatGPT và Làn Sóng Bot AI Mới

Sự xuất hiện của các mô hình ngôn ngữ lớn đã tạo ra một danh mục hoàn toàn mới của những trình crawl web và một danh mục hoàn toàn mới của sự giả mạo. GPTBot của OpenAI crawl web để thu thập dữ liệu đào tạo và sự hiện diện của nó đã trở thành một trong những chủ đề gây tranh cãi nhất trong công bố trên web. Nhiều nhà xuất bản muốn chặn GPTBot để ngăn nội dung của họ bị sử dụng để đào tạo AI. Những người khác muốn cho phép nó, hy vọng sẽ được ưu đãi trong các phản hồi của ChatGPT. Dù bằng cách nào, khả năng phân biệt GPTBot thực sự từ những phiên bản giả rất quan trọng để thực thi bất kỳ chính sách nào nhà xuất bản đã chọn.

GPTBot thực sự, giống như Googlebot thực sự, hoạt động từ một tập hợp các địa chỉ IP cụ thể liên kết với hạ tầng của OpenAI. Chuỗi user agent tự xác định chính nó rõ ràng, và các phạm vi IP được công bố và có thể xác minh. GPTBot giả, đã lan tràn nhanh chóng kể từ khi ra mắt ChatGPT, sử dụng chuỗi user agent giống nhau nhưng kết nối từ hạ tầng không liên quan. Những động lực để giả mạo GPTBot là đa dạng. Một số scrapers sử dụng nó vì những nhà xuất bản đã quyết định cho phép các trình crawl đào tạo AI sẽ phục vụ nội dung miễn phí cho bất cứ điều gì tuyên bố mình là GPTBot. Những người khác sử dụng nó như một danh tính che phủ chung, tính toán dựa trên giả định rằng những quản trị viên máy chủ ít quen thuộc hơn với các phạm vi IP của OpenAI so với Google và do đó ít có khả năng xác minh yêu cầu. Trình phát hiện trình crawl OpenAI giải quyết điều này trực tiếp, xác minh xem một yêu cầu GPTBot được tuyên bố có thực sự bắt nguồn từ mạng của OpenAI hay không.

Ngoài GPTBot, cảnh quan trình crawl AI đang mở rộng nhanh chóng. Anthropic, Perplexity, Meta và nhiều công ty AI nhỏ hơn đều vận hành các trình crawl web với mức độ minh bạch khác nhau về các hoạt động của họ. Mỗi một trong những trình crawl này có thể được giả mạo, và mỗi sự giả mạo mang theo ý nghĩa riêng của nó tùy thuộc vào cách trang đích xử lý trình crawl cụ thể đó. Một trang chặn tất cả các trình crawl AI ngoại trừ GPTBot, ví dụ, tạo ra một khuyến khích mạnh mẽ cho các scrapers để giả mạo GPTBot cụ thể, vì đó là danh tính duy nhất sẽ được phục vụ nội dung mà không có hạn chế.

Những Người Chơi Nhỏ Hơn và Đuôi Dài của Sự Giả Mạo Bot

Hệ sinh thái bot mở rộng xa ngoài Google, Bing và OpenAI. Yandex vận hành một trình crawl đáng kể cho web nói tiếng Nga, và các bots Yandex giả là phổ biến trên các trang có nội dung nói tiếng Nga hoặc những trang phục vụ nội dung khác cho Yandex. Trình crawl của DuckDuckGo, DuckDuckBot, được giả mạo mặc dù thị phần nhỏ của DuckDuckGo, vì những trang phục vụ người dùng có ý thức về quyền riêng tư thường cấp cho DuckDuckBot quyền ưu tiên. Qwant, công cụ tìm kiếm Pháp và Seznam, công cụ tìm kiếm Séc, cả hai đều có những trình crawl bị giả mạo ở các thị trường khu vực tương ứng của chúng.

Phương pháp xác minh hoạt động giống hệt nhau cho tất cả chúng. Mỗi trình crawl hợp pháp hoạt động từ một tập hợp các địa chỉ IP đã biết liên kết với hạ tầng mạng của người điều hành. ASN xác định mạng. DNS ngược xác nhận tên máy chủ. DNS chuyển tiếp xác nhận IP. Chuỗi xác minh này là phổ quát và áp dụng bất kể trình crawl cụ thể nào đang được kiểm tra. Sự khác biệt chỉ nằm trong dữ liệu tham chiếu: ASN nào, mẫu tên máy chủ nào và phạm vi IP nào thuộc về mỗi trình crawl. API nhận dạng bot duy trì những tập dữ liệu tham chiếu này cho tám trình crawl chính và cung cấp xác minh trong một lệnh gọi API duy nhất.

Đuôi dài của hệ sinh thái bot cũng bao gồm những trình crawl không giả mạo bất kỳ ai. Đây là những bots trung thực. Các công cụ SEO như Ahrefs, SEMrush và Moz vận hành những trình crawl tự xác định chính xác trong chuỗi user agent của họ. Các dịch vụ so sánh giá, trình crawl nghiên cứu học thuật, trình kiểm tra khả năng truy cập và trình xác thực liên kết đều tuyên bố danh tính thực sự của họ. Những bots này có thể hoặc không hoặc không được chào đón trên bất kỳ trang nào, nhưng ít nhất người điều hành trang có thể đưa ra quyết định có căn cứ về việc cho phép họ. Vấn đề cụ thể là với những kẻ giả mạo, những bots nói dối về danh tính của họ để có quyền truy cập mà họ sẽ không nhận được nếu khác.

Xây Dựng Một Phòng Thủ Dựa Trên Xác Minh Danh Tính

Phòng thủ thực tế chống lại sự giả mạo bot là đơn giản sau khi cơ chế xác minh được đưa vào chỗ. Mỗi yêu cầu đến tuyên bố mình đến từ một trình crawl công cụ tìm kiếm được kiểm tra so với hạ tầng đã biết của trình crawl. Những yêu cầu vượt qua xác minh được cho phép thông qua với bất kỳ đặc quyền nào trang cấp cho trình crawl đó. Những yêu cầu không vượt qua xác minh hoặc bị chặn hoàn toàn hoặc được coi là lưu lượng chung tùy thuộc vào giới hạn tốc độ tiêu chuẩn của trang và các điều khiển truy cập.

Cách tiếp cận này vượt trội hơn so với phân tích hành vi vì nhiều lý do. Phân tích hành vi cố gắng xác định xem một khách truy cập có phải là một bot dựa trên cách nó tương tác với trang: tốc độ yêu cầu, mẫu điều hướng, kích hoạt JavaScript, chuyển động chuột. Những tín hiệu này có tiếng ồn, tạo ra những dương tính giả và có thể bị đánh bại bởi những bots đủ tinh vi bắt chước hành vi con người. Xác minh dựa trên IP, ngược lại, tạo ra kết quả nhị phân với không có dương tính giả. Một yêu cầu hoặc đến từ mạng của Google hoặc nó không. Không có sự mơ hồ, không có ngưỡng để điều chỉnh và không có mô hình hành vi để đào tạo.

Việc thực hiện không cần phải là đồng bộ với mỗi yêu cầu đối với những trang nơi độ trễ là một mối quan tâm. Xác minh có thể chạy không đồng bộ, với kết quả được lưu vào bộ nhớ cache mỗi địa chỉ IP. Khi một IP được xác minh là thuộc về Googlebot, tất cả các yêu cầu tiếp theo từ IP đó có thể được cho phép mà không cần xác minh lại trong một khoảng thời gian có thể cấu hình. Cách tiếp cận này thêm độ trễ không đáng kể vào đường ống yêu cầu trong khi cung cấp bảo vệ toàn diện chống lại sự giả mạo. Khoảng thời gian lưu vào bộ nhớ cache phản ánh sự cân bằng: lưu vào bộ nhớ cache lâu hơn có nghĩa là ít lệnh gọi API hơn nhưng một cửa sổ hơi lớn hơn nơi một IP đã xác minh trước đó có thể về mặt lý thuyết thay đổi quyền sở hữu. Trong thực tế, phân bổ IP công cụ tìm kiếm cực kỳ ổn định, và thời lượng bộ nhớ cache là 24 giờ trở lên là an toàn đối với hầu hết các ứng dụng.

Kết quả của việc thực hiện xác minh bot dựa trên danh tính là một cái nhìn sạch sẽ hơn, trung thực hơn về những gì thực sự tấn công máy chủ. Những trình crawl thực sự được chào đón. Những trình crawl giả được lộ ra và chặn. Dữ liệu phân tích phản ánh thực tế thay vì viễn tưởng. Tài nguyên máy chủ được phân bổ cho những khách truy cập thực sự và những trình crawl hợp pháp thay vì bị lãng phí trên những kẻ giả mạo. Hệ sinh thái động vật của những internet bots là phức tạp và liên tục phát triển, nhưng nguyên tắc cơ bản của xác minh theo nguồn gốc mạng vẫn có hiệu quả bất kể hệ sinh thái bot thay đổi như thế nào.

Các Câu Hỏi Thường Gặp

Làm cách nào để xác minh xem một yêu cầu có thực sự từ Googlebot không?

Thực hiện tra cứu DNS ngược trên địa chỉ IP và xác nhận tên máy chủ kết thúc bằng googlebot.com hoặc google.com. Sau đó, thực hiện tra cứu DNS chuyển tiếp trên tên máy chủ đó và xác nhận nó giải quyết trở lại cùng một IP. Ngoài ra, kiểm tra xem IP có thuộc AS15169, đó là hệ thống tự trị của Google hay không. API nhận dạng bot thực hiện tất cả những kiểm tra này trong một lệnh gọi duy nhất.

Một bot có thể giả mạo địa chỉ IP của nó để xuất hiện như Googlebot không?

Các địa chỉ IP không thể bị spoofed cho các kết nối TCP vì bắt tay TCP yêu cầu giao tiếp hai chiều. Một bot có thể giả mạo chuỗi user agent một cách tầm thường, nhưng nó không thể thiết lập một kết nối TCP với một IP nguồn giả mạo. Đây là lý do tại sao xác minh dựa trên IP là chắc chắn trong khi nhận dạng dựa trên user agent thì không.

ASN là gì và tại sao nó lại quan trọng đối với nhận dạng bot?

Một ASN hoặc Autonomous System Number xác định một mạng được điều hành bởi một tổ chức duy nhất. Mạng của Google là AS15169, Microsoft sử dụng một số ASN, và OpenAI có các phạm vi được chỉ định của riêng nó. Kiểm tra IP của một bot so với ASN dự kiến sẽ ngay lập tức tiết lộ xem yêu cầu đến từ hạ tầng của tổ chức được tuyên bố hay từ một trung tâm dữ liệu không liên quan.

Tôi có nên chặn tất cả các bots không vượt qua xác minh không?

Chặn các bots giả mạo các công cụ tìm kiếm cụ thể thường là an toàn và được khuyến nghị. Tuy nhiên, không phải tất cả các bots không được xác minh đều là độc hại. Một số là những công cụ hợp pháp chỉ đơn giản là không giả mạo trình crawl. Sự phân biệt chính là giữa những bots nói dối về danh tính của họ, những bot đó nên bị chặn, và những bots xác định trung thực danh tính của họ, những bot đó có thể được đánh giá riêng lẻ.

Sự giả mạo bot phổ biến như thế nào trên các trang web điển hình?

Tính phổ biến thay đổi theo kích thước trang và loại nội dung. Những trang có quyền lực cao, nội dung có giá trị hoặc số lượng trang lớn có xu hướng thu hút nhiều trình crawl giả hơn. Dữ liệu ngành cho thấy lưu lượng bot chiếm từ 30 đến 50 phần trăm của tất cả lưu lượng web toàn cầu, và một phần đáng kể của lưu lượng đó là lưu lượng giả mạo tuyên bố mình là trình crawl công cụ tìm kiếm hợp pháp.

Chặn những bots giả có ảnh hưởng đến lập chỉ mục công cụ tìm kiếm thực không?

Không. Chặn dựa trên xác minh chỉ ảnh hưởng đến những yêu cầu từ những địa chỉ IP không thuộc về công cụ tìm kiếm được tuyên bố. Googlebot thực sự, Bingbot và những trình crawl hợp pháp khác vượt qua xác minh và tiếp tục truy cập trang bình thường. Tác động duy nhất là đối với những kẻ giả mạo.