ニュース
Googlebotの仕組みとは?クロールの実態と「2MB制限」がSEOに与える影響
Googleは、クローラーの内部構造について、より具体的な情報を公開しました。
今回明らかになったのは、Googlebotがどのようにページを取得し、どこまでを処理しているのかという“裏側”の仕組みです。本記事では、そのポイントを整理しながら、SEOへの影響を解説します。
Googlebotは「1つのクローラー」ではない
一般的にGooglebotは1つのクローラーとして認識されがちですが、実際には単一のプログラムではありません。
現在のGoogleでは、検索だけでなくショッピングや広告など複数のサービスが共通のクロール基盤を利用しており、それぞれが異なるクライアントとしてリクエストを行っています。
つまりGooglebotは、単独で動く存在なのではなく、複数のサービスが利用するクロールインフラの一部として機能しています。
重要なのは「最初の2MB」だけ
今回の発表で特に重要なのが、取得データ量の上限です。
Googlebotは1つのURLに対して最大2MBまでしかデータを取得しません。これはHTML本体だけでなく、HTTPヘッダーも含めたサイズです。
この上限を超えた部分は取得されず、そのままインデックスの対象外となります。ページ自体は認識されますが、2MB以降の情報は存在しないものとして扱われます。
見えていない情報は評価されない
この仕様で注意すべきなのは、後半に配置された情報が適切に評価されない可能性がある点です。
例えば、インラインのCSSやJavaScriptが肥大化していたり、画像データをbase64で埋め込んでいたりすると、HTML全体が膨らみ、本来伝えたいテキストや構造化データが後ろに押し出されてしまうことがあります。
その結果、重要なコンテンツであっても、Googleからは存在しないものとして扱われてしまいます。
レンダリングも「取得できた範囲」が前提
取得されたデータは、その後レンダリング処理に回され、JavaScriptの実行を含めてページの内容が解析されます。
ただし、ここでも前提となるのはあくまで「取得できた範囲」で、2MB以内に収まっていないコードや情報は、レンダリングの対象にもなりません。
さらに、レンダリングは毎回リセットされた状態で行われるため、セッションやローカルストレージに依存した設計は、意図通りに解釈されない可能性があります。
SEOで問われるのは「構造と順序」
この仕組みを踏まえると、SEOで重要になるのは情報の持ち方だけではありません。
どの情報をどの位置に配置するか、つまり構造と順序がこれまで以上に重要になります。
特に、タイトルやメタ情報、canonical、構造化データといった要素は、HTMLの上部に配置しておくことで、確実に取得される状態を作る必要があります。
また、HTMLはできるだけ軽量に保ち、スタイルやスクリプトは外部ファイルとして分離することで、重要な情報が埋もれない設計が求められます。
まとめ
今回の内容から見えてくるのは、クロールが単なる巡回ではなく、「限られたデータの中で何を取得するか」という前提で動いているという点です。
そのため、コンテンツの量だけでなく、どこに配置されているかが評価に影響します。
今後は「何を書くか」に加えて、「どの順番で見せるか」まで含めた設計が、SEOにおいてより重要になっていきます。
