ニュース
Googleがrobots.txtの実態調査を実施|公式説明の更新で何が変わるのか
Googleの担当チームが、実際のWebサイトで使われているrobots.txtの設定内容を大規模に調査したことを明らかにしました。調査の目的は、現在の公式説明には記載されていない「Googleが対応していないルール」の一覧を整理することです。
この調査結果をもとに、公式説明が更新される予定で、あわせてよくある記述ミスへの対応も広がる可能性があります。
なぜこの調査が始まったのか
きっかけは、あるコミュニティメンバーからGoogleへの提案でした。「Googleが対応していないルールのリストに、新たに2つの項目を追加してほしい」という内容でしたが、GoogleのGary IllyesとMartin Splittはその2つだけを追加するのではなく、「データをもとに判断する」という方針を取りました。実際のWebサイトでどのようなルールが使われているかを調査した上で、最もよく使われているものをまとめて公式に記載しようという流れです。
どうやって調査したのか
調査には「HTTP Archive」と「Google BigQuery」という2つのツールが使われました。HTTP Archiveは毎月数百万のWebページを自動で巡回してデータを収集するサービスで、その結果がBigQueryというデータ分析基盤に蓄積されています。ただし、通常の巡回ではrobots.txtファイルの中身が取得されないため、チームはrobots.txtの内容を1行ずつ読み取る専用のプログラムを独自に開発しました。
このプログラムは2026年2月の巡回から組み込まれ、現在は誰でもデータを確認できる状態で公開されています。
調査でわかったこと
データを分析した結果、robots.txtで使われているルールの種類は極端に偏っていることがわかりました。
Googleが現在対応している4つの設定項目(user-agent・allow・disallow・sitemap)が圧倒的に多く、それ以外のルールは急激に少なくなります。よく使われている非対応ルール上位10〜15件が、今後の公式説明に追加される予定です。また、disallowのよくある書き間違いについても、現在より広い範囲を受け入れる方向で検討されています。
SEOへの影響
今回の変更は検索順位のアルゴリズムに関するものではなく、公式説明の整備と書き間違いへの対応拡張です。ただし、サイト運営者にとって実務的な確認が必要な内容です。
現在Googleが対応しているのはuser-agent・allow・disallow・sitemapの4つのみで、それ以外の設定はすでに無視されています。独自のルールを記述していたとしても、Googleには反映されていない可能性があります。今回の公式説明の更新により「どの設定が無効なのか」が明文化されるため、自社のrobots.txtを見直す良い機会です。
マーケターが取り組むべきこと
まず、自社サイトのrobots.txtにuser-agent・allow・disallow・sitemap以外の設定が含まれていないかを確認することをおすすめします。Google Search Consoleにrobots.txtの確認ツールがあり、Googleがどの設定を認識しているかを直接確認できます。
確認方法は以下の通りです。
直接アクセスして確認する
・ブラウザのアドレスバーに https://自社ドメイン/robots.txt と入力
・表示された内容を確認
・user-agent・allow・disallow・sitemap以外の記述がないかをチェック
Google Search Consoleで確認する
・Google Search Console にログイン
・左メニューの「設定」をクリック
・「robots.txtファイル」を開く
・Googleが実際に読み取った内容を確認
また、disallowの書き間違い(「Disalow」など)が含まれている場合、現在は意図通りに機能していない可能性があります。Googleが受け入れる書き間違いの範囲を広げる予定とのことですが、正しく記述されているかを確認しておくことが先決です。多言語サイトや複数のドメインを運用している場合は、それぞれのrobots.txtが意図通りに設定されているかをあわせて点検しておくことをおすすめします。
まとめ
Googleがrobots.txtの実態調査を実施し、公式説明を更新する予定であることが明らかになりました。更新の時期や対象ルールの詳細はまだ発表されていませんが、robots.txtの設定をしばらく見直していない場合は、このタイミングで内容を確認しておくことをおすすめします。

