Google関係者が語るGooglebotクロールとウェブクローリングの仕組みとは?

Google Search Relations TeamのMartin Splitt氏とGary Illyes氏が、5/29のSearch Off the RecordポッドキャストでGooglebotとウェブクローリングの仕組みについて詳細に解説しました。この回では、Googleの初期から現在に至るまでのクローラー技術の進化、統合インフラストラクチャの導入背景、そして将来の展望まで、SEO担当者が知るべき重要な情報が数多く語られています。

Googlebotの歴史と技術的進化

初期のクローリング技術から現代まで

Gary Illyes氏によると、クローラーは本質的に「非常にシンプルなHTTPクライアント」であり、ブラウザと同様にネットワーク上のデータを取得するツールです。1990年代のインターネット黎明期には、CNNやWall Street Journalのような人気サイトのホームページから始めて、リンクを辿るだけで「インターネット全体をクロールできた」と説明されています。

当時のウェブページは現在と比較して極めて軽量で、7,000バイト程度のHTMLファイルが一般的でした。現在では単一の画像ファイルよりも小さなサイズです。しかし、帯域幅のコストが現在よりもはるかに高額だったため、クローリングには異なる課題がありました。

Googlebotの命名と発展

Googlebotという名称は1999年頃に付けられ、それ以前は特別な名前がありませんでした。ただし、Googleの創設当初からrobots.txtプロトコルはサポートされており、サイト所有者がクローリングを制御できる仕組みが整備されていました。

Google内部のクローラー統合戦略

複数プロダクトによるクローリング課題

2000年代初頭にAdWords(2000年代前半)やAdSense(2003年頃)、Gmail(2005-2006年)などの新しいプロダクトが登場すると、それぞれが独自のデータ取得ニーズを持つようになりました。

特にGmailでは、ユーザーのメタデータを外部サイトに漏らさないよう、メール内の画像を代理で取得する必要がありました。当初はすべてのプロダクトがGooglebotを共用していましたが、これではサイト所有者が「どのプロダクトのためのクローリングなのか」を判別できない問題がありました。

統合インフラストラクチャの導入

この課題を解決するため、Googleは2006年頃にGoogle AdSenseBot(現在のGoogle-AdSense)を導入し、統合クローリングシステムを構築しました。このシステムでは、各プロダクトが独自のユーザーエージェント文字列を指定できる一方で、robots.txtの遵守やホスト負荷の監視などの基本的な動作は統一されています。

ユーザー主導型フェッチとクローラーの違い

異なるアプローチが必要な理由

Gary Illyes氏は、ユーザーが直接操作するアクション(例:スプレッドシートへのデータ読み込み)では、robots.txtを無視することが適切な場合があると説明しています。これは「ユーザーの代理で行う取得」であり、自動化されたクローリングとは本質的に異なるためです。

レイテンシーの重要性

通常のクローラーは大量のURLデータベースから順次処理を行うため、ユーザーが追加したURLの処理に数週間かかることがあります。一方、ユーザー主導型のフェッチでは、サイトからの信号を無視してでも即座に処理を実行する必要があります。

Search Consoleの「ライブテスト」機能がこの例として挙げられており、ユーザーがリアルタイムで結果を確認できるよう設計されています。

現在のGooglebotの技術仕様

ファイルサイズ制限とクローリング頻度

Googleの公式ドキュメントによると、Googlebotは以下の制限があります。

①HTMLファイルの15MB制限

Googlebotは、HTMLファイルまたはサポートされているテキストベースのファイルの最初の15MBまでをクローリングします。この制限を超えると、Googlebotはクロールを停止し、最初の15MBのみをインデックス登録の対象とします。

②サブリソースの15MB制限

この15MB制限は、Googlebotが行う初回リクエストで受信するバイト(コンテンツ)にのみ適用され、ページ内で参照されるリソースには適用されません。例えば、HTMLファイルを開く際、ブラウザは最初にHTMLファイルのバイトをダウンロードし、そのバイトに基づいて外部JavaScript、画像、その他URLで参照されるものに対して追加のリクエストを行います。

非圧縮データへの適用

この制限は非圧縮データに適用されます。

④クローリング頻度について

クローリング頻度はクロール予算によって決定され、これは「Googlebotがクロールできる、かつクロールしたいURL数」として定義されます。クロール予算は以下の2つの主要要素で決まります。

  • クロール容量制限:Googlebotがサイトを圧迫することなくクロールするために計算される、同時並列接続の最大数とフェッチ間の時間遅延
  • クロール需要:サイトのサイズ、更新頻度、ページ品質、関連性に基づいてGoogleが必要と判断するクロール時間

サーバー応答時間の重要性

Google PageSpeed Insightsでは、サーバー応答時間を200ミリ秒未満に削減することを推奨しています。サイトが迅速に応答する場合、制限が上がり、より多くの接続を使用してクロールできるようになります。サイトが遅くなったりサーバーエラーで応答したりする場合、制限が下がり、Googlebotのクロールが少なくなります。

この15MB制限は新しい変更ではなく、何年も前から存在していた制限が2022年6月に公式ドキュメントに追加されただけです。HTMLファイルの中央値サイズは約30KBであるため、ほとんどのウェブサイトには影響しません。

モバイルファーストインデックスの実装

モバイルファーストインデックスの実装は段階的に行われ、2020年9月の当初計画から数度の延期を経て、2023年11月に実質的に完了しました。2024年7月5日以降は、スマートフォン用Googlebotのみでウェブサイトをクロールし、インデックスに登録していますが、技術的問題を抱える極少数のサイトについては例外的にデスクトップGooglebotでのクロールが継続されています。

クロールバジェット管理の重要性

クロールバジェットの基本概念

Googleの公式ガイドによると、クロールバジェットは「クロール容量制限」と「クロール需要」の2つの要素によって決定されます。

クロール容量制限は、Googlebotがサイトを圧迫しないよう計算される同時並行接続数の上限と、フェッチ間の時間遅延です。この制限は以下の要因で変動します。

  • クロールヘルス:サイトの応答が速い場合は制限が上がり、遅い場合やサーバーエラーが発生する場合は制限が下がります
  • Googleのクローリング制限:Googleのマシンリソースには限りがあるため、全体的な制約があります

クロール需要は、サイトのサイズ、更新頻度、ページ品質、関連性に基づいて決定されます。

クロール効率化の実践的手法

Googleの公式ガイドでは、以下の最適化手法が推奨されています。

ページ読み込み速度の向上
  • サーバー応答時間の短縮により、より多くのページがクロールされる可能性があります
  • ただし、低品質なページを高速化してもクロール量は増加しません
リソース管理の最適化
  • robots.txtを使用して重要でない大きなリソースのクロールを防止
  • 長いリダイレクトチェーンの回避
  • 画像やスクリプトなどの埋め込みリソースの読み込み時間と実行時間の最適化

Web Rendering Serviceとリソースクロール

レンダリングプロセスの仕組み

Googleの公式ブログによると、現代のウェブサイトのクロールプロセスは以下のように動作します。

  1. GooglebotがHTMLをダウンロード
  2. Web Rendering Service(WRS)にデータを渡す
  3. WRSがGooglebotを使用して参照されるリソースをダウンロード
  4. WRSがすべてのリソースを使用してページを構築

リソースキャッシュによるクロールバジェット保護

WRSは参照されるすべてのリソース(JavaScriptとCSS)をキャッシュし、最大30日間保持します。このキャッシュはHTTPキャッシュディレクティブの影響を受けず、サイトのクロールバジェットを他のクロールタスクのために保護する役割を果たします。

地域対応クローリングの進化

多言語・多地域サイトへの対応

Googleは2015年から地域対応ページのクロール設定を導入しています。

地理分散クローリングでは、Googlebotが米国外からのIPアドレスも使用してクロールを実行します。言語依存クローリングでは、Accept-Language HTTPヘッダーを含むリクエストでクロールを行います。

これらの設定は、地域適応型ページとして検出されたページに対して自動的に有効化されます。

AI時代のクローラー戦略

Google-Extendedクローラーの導入

2025年4月、GoogleはAIモデル訓練専用のGoogle-Extendedクローラーの説明を大幅に更新しました。このクローラーは以下の特徴があります。

  • Gemini、Vertex AIの訓練データ収集専用
  • 検索結果のインデックス化とは完全に分離
  • SEOランキングに一切影響しない
  • robots.txtで個別に制御可能

データ収集目的クローラーの増加

実際のサイト運営者の調査によると、GoogleOtherやGPTbotなどのデータ収集目的のクローラーが増加しており、これらをブロックすることで本来のGooglebotのクロール数が増加することが確認されています。

クローラーブロック方法例

User-agent: GPTBot Disallow: /
User-agent: GoogleOther
Disallow: /

日本市場におけるクローリング最適化の実践的アドバイス

モバイルファーストの徹底

日本では通勤時間中のモバイル検索が特に多く、モバイルファーストの最適化が不可欠です。Googlebotの大部分がモバイルクローラーによる要求となっているため、モバイル体験の最適化は検索パフォーマンスに直結します。

クロールバジェット最適化の具体策

サーバー負荷の監視
  • Googlebotのアクセス頻度を適切に管理
  • robots.txtを活用した不要なクローリングの制限
  • サイトの応答速度向上によるクローリング効率の改善
構造化データの実装
  • schema.orgマークアップによる検索エンジンの理解促進
  • 日本語コンテンツに適した構造化データの設計
内部リンク戦略
  • 日本語サイトの階層構造を明確にする内部リンク設計
  • ユーザーエクスペリエンスとクローリング効率の両立

技術的な最適化ポイント

サーバー応答速度の改善も重要です。

  • サーバー応答時間の短縮
  • 重要でないリソースの読み込み最適化
  • リダイレクトチェーンの最小化

JavaScript SEOの強化

Googleは2025年2月にJavaScript SEOドキュメントを見直し、動的レンダリングを非推奨の回避策として明確化しました。最新のChrome版を使用したレンダリングプロセスに対応することが重要です。

SEO担当者が押さえるべきクローリング最適化の要点

今回のポッドキャストとGoogleの公式ドキュメントから得られる実践的な知見として、以下の点が重要です。

統合的なクローリング戦略の理解

  • Googleの各プロダクト(検索、広告、AI訓練)が異なるクローラーを使用
  • それぞれのクローラーが同一の基本ポリシーに従って動作
  • サイト所有者は用途に応じてクローリングを制御可能

技術的な最適化の継続

  • モバイルファーストインデックスへの完全対応
  • ページ読み込み速度の継続的な改善
  • 適切なrobots.txt設定による効率的なクローリング誘導

将来への準備

  • AI時代に向けたコンテンツ戦略の見直し
  • Google-Extendedクローラーへの適切な対応
  • Web Rendering Serviceのキャッシュ機能を活用したリソース最適化

Googleのクローリング技術は単純なHTTPクライアントから始まり、現在では高度に統合されたシステムへと進化しています。SEO担当者は、この技術的進化を理解し、自社サイトの最適化に活用することで、検索エンジンからの適切な評価を獲得できるでしょう。

出典

そのお悩み、私たちが解決します!

マーケティングに関するお困りのことがございましたら、お気軽にご相談ください。

  • SEOによる集客に関する悩み
  • 広告運用(リスティング・ディスプレイ)に関するお悩み
  • 広告マネタイズのお悩み
  • 新規事業立ち上げ・設計のお悩み
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

関口 拓人のアバター 関口 拓人 代表取締役

早稲田大学卒。学生時代、月間数千万PVのサービスをゼロから立ち上げ、株式会社ゲームエイトの立ち上げにマーケターとして参画。2015年株式会社現リクルートに入社後、医療系ECサイト・メディア事業の広告運用・SEOなどを担当。2016年に株式会社ゲームエイト執行役員就任、月間3億PVサイトのSEO・収益改善などを担当。2018年株式会社インフラトップ にて、マーケターとしてプログラミングスクールの集客改善。株式会社ハウクレイジー代表就任後、月間数千万円売上サイトの自社サイト立ち上げや累計30サービス以上のマーケティング支援などコンサル事業を提供。

目次