NEWS

ニュース

COLUMN

2026.05.08

Googlebotの仕組みとは？クロールの実態と「2MB制限」がSEOに与える影響

Googleは、クローラーの内部構造について、より具体的な情報を公開しました。

今回明らかになったのは、Googlebotがどのようにページを取得し、どこまでを処理しているのかという“裏側”の仕組みです。本記事では、そのポイントを整理しながら、SEOへの影響を解説します。

一般的にGooglebotは1つのクローラーとして認識されがちですが、実際には単一のプログラムではありません。

現在のGoogleでは、検索だけでなくショッピングや広告など複数のサービスが共通のクロール基盤を利用しており、それぞれが異なるクライアントとしてリクエストを行っています。

つまりGooglebotは、単独で動く存在なのではなく、複数のサービスが利用するクロールインフラの一部として機能しています。

今回の発表で特に重要なのが、取得データ量の上限です。

Googlebotは1つのURLに対して最大2MBまでしかデータを取得しません。これはHTML本体だけでなく、HTTPヘッダーも含めたサイズです。

この上限を超えた部分は取得されず、そのままインデックスの対象外となります。ページ自体は認識されますが、2MB以降の情報は存在しないものとして扱われます。

この仕様で注意すべきなのは、後半に配置された情報が適切に評価されない可能性がある点です。

例えば、インラインのCSSやJavaScriptが肥大化していたり、画像データをbase64で埋め込んでいたりすると、HTML全体が膨らみ、本来伝えたいテキストや構造化データが後ろに押し出されてしまうことがあります。

その結果、重要なコンテンツであっても、Googleからは存在しないものとして扱われてしまいます。

取得されたデータは、その後レンダリング処理に回され、JavaScriptの実行を含めてページの内容が解析されます。

ただし、ここでも前提となるのはあくまで「取得できた範囲」で、2MB以内に収まっていないコードや情報は、レンダリングの対象にもなりません。

さらに、レンダリングは毎回リセットされた状態で行われるため、セッションやローカルストレージに依存した設計は、意図通りに解釈されない可能性があります。

この仕組みを踏まえると、SEOで重要になるのは情報の持ち方だけではありません。

どの情報をどの位置に配置するか、つまり構造と順序がこれまで以上に重要になります。

特に、タイトルやメタ情報、canonical、構造化データといった要素は、HTMLの上部に配置しておくことで、確実に取得される状態を作る必要があります。

また、HTMLはできるだけ軽量に保ち、スタイルやスクリプトは外部ファイルとして分離することで、重要な情報が埋もれない設計が求められます。

今回の内容から見えてくるのは、クロールが単なる巡回ではなく、「限られたデータの中で何を取得するか」という前提で動いているという点です。

そのため、コンテンツの量だけでなく、どこに配置されているかが評価に影響します。

今後は「何を書くか」に加えて、「どの順番で見せるか」まで含めた設計が、SEOにおいてより重要になっていきます。