フェイク Google ボット、フェイク ChatGPT クローラー、フェイク Bing とインターネット ボット の分類学
インターネットは野生動物の問題を抱えています。人間のブラウジング活動の表面下には、膨大な規模で Web ページをクロール、スクレイプ、プローブ、リクエストする自動化されたプログラムのエコシステム全体が存在します。これらのボットの中には有益なものもあります。Google のクローラーはページをインデックスして、検索結果に表示されるようにします。Bing のクローラーは Microsoft の検索エンジンについても同じことをします。OpenAI のクローラーは言語モデルのトレーニング データを収集します。これらの正当なクローラーは正直に自分たちのアイデンティティを識別し、robots.txt ファイルで指定されたルールに従い、既知のインフラストラクチャから動作します。しかし、すべての正当なクローラーに対して、同じ名札を着けながら全く異なることをしている何十人ものなりすまし者がいます。彼らはユーザー エージェント文字列で Googlebot として自分たちを発表し、ページをインデックスのためにクロールしていると主張し、ほとんどの Web サーバーがその請求されたアイデンティティに基づいて彼らに優先的な扱いを与えるという事実に依存しています。これらのインターネット ボットの分類学は、生物学的エコシステムと同じくらい複雑で、競争力があり、時々奇妙です。
このエコシステムを理解することは、Web サイトを運用する誰にとっても重要です。ボットを信頼するか ブロックするかの決定には直接的な結果があるからです。本当の検索エンジン クローラーをブロックすると、ページが検索結果に表示されなくなります。フェイク クローラーを信頼すると、スクレーパー、競争インテリジェンス ツール、または悪意のあるアクターが、価値を提供するふりをしながら サーバー リソースを消費できるようになります。本物と偽物のクローラーを区別する能力は、理論的なセキュリティ演習ではありません。これはネットワーク インフラストラクチャから接続するボット クローラーのアイデンティティを確定的に検証することで、帯域幅コスト、サーバー パフォーマンス、分析精度、およびコンテンツ保護に直接影響を及ぼす実践的な必要性です。ボット検出 API は、この目的のためにまさに存在し、ボットが接続するネットワーク インフラストラクチャに基づいて クローラーのアイデンティティの確定的な検証を提供します。これは偽ることのできないものです。
フェイク Google ボットの種類
Googlebot はインターネット上で最も偽装されるクローラーであり、理由は明らかです。Web サイトは Googlebot に特別な特権を定期的に与えます。レート制限は緩和されます。ペイウォールはリフトされます。JavaScript レンダリングの後ろに隠されているコンテンツは、Google のクローラー用に特別にプレレンダリングされます。Robots.txt ルールは、他のクローラーで制限されているセクションへの Googlebot アクセスを明示的に許可することがよくあります。Googlebot として請求することにより、フェイク クローラーは、それを獲得することなく、これらすべての特権を継承します。Web サイトは、その最高のコンテンツ、最速の応答、および最も完全なページを、Google のインデックス作成インフラストラクチャであると信じているものに提供します。実際には受け取り手は、データ センターのレンタルされたサーバーから動作するスクレーパーです。
リアル Googlebot は絶対確実に識別できます。これは Google の自律システム AS15169 内のIP アドレスからのみ動作します。リアル Googlebot IP アドレスの逆引き DNS ルックアップは、googlebot.com または google.com で終わるホスト名を返します。そのホスト名の順引き DNS ルックアップは、元の IP アドレスに解決されます。この 3 ステップの検証チェーン (IP からホスト名へ、そして IP へ) は、Google の DNS インフラストラクチャに暗号的にバインドされており、Google の DNS サーバーを侵害することなくはスプーフィングできません。これは事実上不可能です。Google ボット検出ツール は、この正確な検証チェーンを実行し、確定的な結果を返します。
フェイク Googlebot は、対照的に、誰でも時間単位でレンタルできる汎用クラウド インフラストラクチャから発信されています。Amazon Web Services、Google Cloud Platform (皮肉にも)、Microsoft Azure、DigitalOcean、Hetzner、OVH、Contabo は一般的な原点です。ユーザー エージェント文字列は、バージョン番号やクロール URL 形式を含め、リアル Googlebot から逐語的にコピーされます。一部の高度なフェイクは、Googlebot のリクエスト パターンをさえ模倣し、合法的なクローリングに似たパターンでリクエストをスペースし、リンクをフォローします。しかし IP アドレスは毎回それらを裏切ります。行動的なミミキリの量は、リクエストが AS15169 (Google) ではなく AS16509 (Amazon) から発信されるという事実を変えることはできません。
Bingbot とそのなりすまし
Microsoft の Bingbot は、2 番目に最も一般的に偽装されるクローラーであり、その検証は Googlebot と同様のパターンに従いますが、いくつかの重要な違いがあります。リアル Bingbot は Microsoft のインフラストラクチャから動作し、その IP アドレスは逆引き DNS を介して search.msn.com ドメイン内のホスト名に解決されます。ASN 検証は、会社の広範なネットワーク インフラストラクチャのため複数の ASN を含む Microsoft の自律システムに対してチェックされます。検証は同様に信頼できますが、Google のより統合された範囲と比較して Microsoft の より広い IP 割り当てに関する認識が必要です。
フェイク Bingbot はフェイク Googlebot と同じ多くの目的を果たしていますが、より低い量で表示されます。これは Bing の市場シェアがより小さいこと、およびそれに対応する それを偽装するインセンティブがより小さいことを反映しています。しかし、具体的に Bing 用に最適化されたり、Bingbot に異なるコンテンツを提供したりするWeb サイトは、不釣り合いなりすまし を引き付けます。Bing のクローラーにページがどのように見えるかを分析する SEO ツールは、Bing 固有のバージョンのページを取得するためにフェイク Bingbot ユーザー エージェントを使用することがよくあります。競争インテリジェンス サービスも同じことをして、競合他社が特に Microsoft の検索インフラストラクチャに提供しているコンテンツを確認します。
検出方法は原則として同じです。IP アドレスを Microsoft の既知の範囲と照合してください。逆引き DNS と順引き DNS の検証を実行してください。ASN が一致することを確認してください。フィンランドの Hetzner サーバーから発信される Bingbot として請求するリクエストは、ユーザー エージェント文字列がどの程度説得力を持っていても、絶対に確実に偽物です。ボット検出 API は この検証を自動的に処理し、請求されたアイデンティティを実際のネットワーク原点と照合し、明確な評決を返します。
ChatGPT クローラーと AI ボットの新しい波
大規模言語モデルの出現により、Web クローラーの完全に新しいカテゴリーと、なりすましの完全に新しいカテゴリーが生まれています。OpenAI の GPTBot は Web をクロールしてトレーニング データを収集し、その存在は Web パブリッシングで最も論争の多いトピックの 1 つになっています。多くのパブリッシャーは、GPTBot をブロックして、彼らのコンテンツが AI トレーニングに使用されるのを防ぎたいと考えています。他のパブリッシャーは、ChatGPT のレスポンスで有利な扱いを受けることを望んで、それを許可したいと考えています。いずれにしても、本物の GPTBot を偽造バージョンから区別する能力は、パブリッシャーが選択したポリシーを実施するために重要です。
リアル GPTBot はリアル Googlebot と同様に、OpenAI のインフラストラクチャに関連する IP アドレスの特定のセットから動作します。ユーザー エージェント文字列は明確に自分自身を識別し、IP 範囲は公開されていて検証可能です。ChatGPT の起動以来急速に増殖したフェイク GPTBot は、同じユーザー エージェント文字列を使用しますが、関連のないインフラストラクチャから接続されます。GPTBot になりすます動機はさまざまです。AI トレーニング クローラーを許可することに決めたパブリッシャーは、GPTBot として請求するものに コンテンツを自由に提供するため、いくつかのスクレーパーが使用しています。他のスクレーパーは、サーバー管理者が Google の IP 範囲よりも OpenAI の IP 範囲にあまり精通していないため、請求を検証する可能性が低いという仮定に銀行を使用して、汎用カバー ID として使用しています。OpenAI クローラー検出ツール これに直接対応し、請求された GPTBot リクエストが実際に OpenAI のネットワークから発信されているかどうかを検証します。
GPTBot の先には、AI クローラーの景観が急速に拡大しています。Anthropic、Perplexity、Meta、および多数の小規模 AI 企業はすべて、その活動の透明性の程度が異なる Web クローラーを運用しています。これらのクローラーはそれぞれになりすまされる可能性があり、各なりすましはターゲット サイトがその特定のクローラーをどのように扱うかに応じて独自の含意を持っています。たとえば、GPTBot を除くすべての AI クローラーをブロックするサイトは、GPTBot がそれが制限なしにコンテンツが提供される唯一のアイデンティティであるため、特にスクレーパーが GPTBot を具体的に偽装するための強い インセンティブを作成します。
小規模プレーヤーとボット なりすましのロング テール
ボット エコシステムは Google、Bing、OpenAI をはるかに超えています。Yandex はロシア語 Web の重要なクローラーを運用しており、フェイク Yandex ボットはロシア語のコンテンツを持つサイト、または特に Yandex に異なるコンテンツを提供するサイトで一般的です。DuckDuckGo のクローラーである DuckDuckBot は、DuckDuckGo の市場シェアが比較的小さいにもかかわらず、プライバシーに関心のあるユーザーに対応するサイトは DuckDuckBot に優先的なアクセスを与えることが多いため、偽装されています。フランスの検索エンジンである Qwant とチェコの検索エンジンである Seznam は、どちらも地域市場でなりすまされるクローラーを持っています。
検証方法はそれらのすべてに同じように機能します。各正当なクローラーは、そのオペレーターのネットワーク インフラストラクチャに関連する IP アドレスの既知のセットから動作します。ASN はネットワークを識別します。逆引き DNS はホスト名を確認します。順引き DNS は IP を確認します。この検証チェーンは普遍的であり、チェックされている特定のクローラーに関係なく適用されます。唯一の違いは参照データの違いです: どの ASN、どのホスト名パターン、どの IP 範囲が各クローラーに属しているか。ボット検出 API は、8 つの主要なクローラーに対してこれらの参照データセットを保守し、検証を単一の API 呼び出しとして提供します。
ボット エコシステムのロング テールには、誰をもなりすまさないクローラーも含まれています。これらは正直なボットです。Ahrefs、SEMrush、Moz などの SEO ツールは、ユーザー エージェント文字列で正確に識別するクローラーを運用しています。価格比較サービス、学術研究クローラー、アクセシビリティ チェッカー、およびリンク検証ツールはすべて真のアイデンティティを発表します。これらのボットは、任意のサイトで歓迎される場合とそうでない場合がありますが、少なくともサイト オペレーターは、それらを許可するかどうかについて情報に基づいた決定を下すことができます。問題は具体的には、アクセスできないはずのアクセスを獲得するために自分たちのアイデンティティについて嘘をつくなりすまし、つまりボットです。
アイデンティティ検証に基づくディフェンスの構築
ボット なりすましに対する実践的なディフェンスは、検証メカニズムが配置されると簡単です。検索エンジン クローラーからの請求をするすべてのインカミング リクエストは、クローラーの既知のインフラストラクチャに対してチェックされます。検証に合格するリクエストは、サイトがそのクローラーに付与する特権を持つトラフィックとして許可されます。検証に失敗するリクエストは、完全にブロックされるか、サイトの標準レート制限とアクセス制御の対象となる汎用トラフィックとして扱われます。
このアプローチは、いくつかの理由で行動分析より優れています。行動分析は、サイトと相互作用する方法に基づいてビジターがボットであるかどうかを判断しようとします: リクエスト レート、ナビゲーション パターン、JavaScript 実行、マウス移動。これらのシグナルはノイズが多く、偽陽性を生成し、人間の行動を模倣する十分に洗練されたボットによって打ち負かされる可能性があります。IP ベースの検証は、対照的に、偽陽性がゼロの二項結果を生成します。リクエストは Google のネットワークから来るか、来ないかです。あいまいさはなく、調整するしきい値はなく、トレーニングする行動モデルはありません。
実装は、遅延が懸念される サイトのすべてのリクエストと同期する必要はありません。検証は非同期で実行でき、IP アドレスごとに結果がキャッシュされます。IP が Googlebot に属することが検証されると、その IP からのすべての後続リクエストは、設定可能な期間の再検証なしで許可できます。このアプローチは、リクエスト パイプラインに無視できる遅延を追加しながら、なりすまし対する包括的な保護を提供します。キャッシング期間は、トレードオフを反映しています: より長いキャッシングはより少ない API 呼び出しを意味しますが、以前に検証された IP が理論的に所有権を変更できるわずかに大きなウィンドウを意味します。実際には、検索エンジンの IP 割り当ては非常に安定しており、24 時間以上のキャッシュ期間は ほとんどのアプリケーションで安全です。
アイデンティティ ベースのボット検証を実装した結果は、実際にサーバーにヒットしているもののより清潔でより正直なビューです。本物のクローラーは歓迎されます。偽のクローラーが公開され、ブロックされます。分析データは虚構の代わりに現実を反映しています。サーバー リソースは、偽のボットに浪費されるのではなく、実際の訪問者と正当なクローラーに割り当てられます。インターネット ボットの分類学は複雑で常に進化していますが、ネットワーク原点による検証の基本原則は、ボット エコシステムがどのように変わるかに関係なく有効なままです。
よくある質問
リクエストが本当に Googlebot からのものであることを確認するにはどうすればよいですか?
IP アドレスの逆引き DNS ルックアップを実行し、ホスト名が googlebot.com または google.com で終わることを確認します。次に、そのホスト名の順引き DNS ルックアップを実行し、同じ IP に解決されることを確認します。または、IP が Google の自律システムである AS15169 に属することを確認してください。ボット検出 API はこれらのすべてのチェックを単一の呼び出しで実行します。
ボットは IP アドレスを偽装して Googlebot として表示されることができますか?
TCP ハンドシェイクが双方向通信を必要とするため、TCP 接続の IP アドレスはスプーフィングできません。ボットはユーザー エージェント文字列を簡単に偽装できますが、偽造元 IP で TCP 接続を確立することはできません。これは IP ベースの検証が決定的である一方、ユーザー エージェント ベースの識別がそうではない理由です。
ASN とは何ですか? ボット検出にはなぜ重要ですか?
ASN または自律システム番号は、単一の組織によって運用されるネットワークを識別します。Google のネットワークは AS15169、Microsoft は複数の ASN を使用し、OpenAI は独自の指定範囲を持っています。ボットの IP を期待される ASN と照合することで、リクエストが請求組織のインフラストラクチャから来ているか、無関係なデータ センターから来ているかがすぐに明らかになります。
検証に失敗したすべてのボットをブロックする必要がありますか?
特定の検索エンジンになりすましたボットをブロックすることは、一般的に安全で推奨されています。ただし、検証されていないすべてのボットが悪意があるわけではありません。一部は、単にクローラーをなりすましていない正当なツールです。重要な区別は、自分たちのアイデンティティについて嘘をつくボット (ブロックされるべき) と、正直に自分たちを識別するボット (個別に評価できる) との間にあります。
一般的な Web サイトではボット なりすましはどの程度一般的ですか?
流行はサイトのサイズとコンテンツ タイプによって異なります。ドメイン オーソリティが高い、価値のあるコンテンツ、またはページ数が多いサイトは、より多くの偽のクローラーを引き付ける傾向があります。業界データは、ボット トラフィックが世界的にすべての Web トラフィックの 30~50% を占め、その大きな部分は正当な検索エンジン クローラーであると主張するなりすまし トラフィックであることを示唆しています。
フェイク ボットをブロックすると、実際の検索エンジン インデックス作成に影響しますか?
いいえ。検証ベースのブロッキングは、請求された検索エンジンに属さない IP アドレスからのリクエストのみに影響します。リアル Googlebot、Bingbot、およびその他の正当なクローラーは検証に合格し、引き続きサイトに正常にアクセスします。唯一の影響はなりすまし者についてです。