가짜 Googlebot, 가짜 ChatGPT 크롤러, 가짜 Bingbot 식별 방법 가이드

인터넷에는 생물 관점의 문제가 있습니다. 인간의 브라우징 활동 표면 아래에는 엄청난 규모로 웹 페이지를 크롤링, 스크래핑, 조사 및 요청하는 자동화된 프로그램 전체 생태계가 존재합니다. 이러한 봇 중 일부는 유익합니다. Google의 크롤러는 검색 결과에 페이지를 표시하도록 색인화합니다. Bing의 크롤러는 Microsoft의 검색 엔진에 대해 동일한 작업을 수행합니다. OpenAI의 크롤러는 언어 모델의 학습 데이터를 수집합니다. 이러한 정상 크롤러는 자신을 정직하게 식별하고, robots.txt 파일에서 지정한 규칙을 따르며, 알려진 인프라에서 작동합니다. 그러나 정상 크롤러마다 같은 이름표를 착용하면서 완전히 다른 작업을 수행하는 수십 개의 사기꾼이 있습니다. 그들은 사용자 에이전트 문자열에서 자신을 Googlebot으로 표시하고, 검색을 위해 페이지를 색인화하고 있다고 주장하며, 대부분의 웹 서버가 그 주장된 신원을 바탕으로 우선 처리를 할 것이라는 사실에 의존합니다. 이러한 인터넷 봇의 생태계는 생물학적 생태계와 마찬가지로 복잡하고 경쟁적이며 때로는 기이합니다.

이 생태계를 이해하는 것은 웹 사이트를 운영하는 모든 사람에게 중요합니다. 봇을 신뢰하거나 차단하기로 결정하면 직접적인 결과가 발생하기 때문입니다. 실제 검색 엔진 크롤러를 차단하면 검색 결과에 페이지가 더 이상 표시되지 않습니다. 가짜 봇을 신뢰하면 스크래퍼, 경쟁 정보 도구 또는 악의적인 행위자가 가치를 제공하는 척하면서 서버 리소스를 소비하도록 허용하는 것입니다. 실제 크롤러와 가짜 크롤러를 구분하는 능력은 이론적인 보안 연습이 아닙니다. 대역폭 비용, 서버 성능, 분석 정확도 및 콘텐츠 보호에 영향을 미치는 실질적인 필요성입니다. 봇 감지 API는 정확히 이러한 목적으로 존재하며, 위조할 수 없는 한 가지, 즉 봇이 연결되는 네트워크 인프라를 기반으로 크롤러 신원의 확정적인 검증을 제공합니다.

가짜 GoogleBot 가짜 ChatGPT 크롤러 가짜 Bing과 인터넷 봇의 생태계

가짜 Googlebot의 종류

Bingbot과 그 사기꾼

ChatGPT 크롤러와 AI 봇의 새로운 물결

소규모 플레이어와 봇 사칭의 긴 꼬리

신원 확인을 기반으로 방어 구축

태그

다른 언어로도 이용 가능: