メインコンテンツへスキップ
ログイン

クロールバジェット:Googleが全ページをインデックスしない理由

クロールバジェットとは何か、なぜ大規模サイトで重要なのか、最適化方法を解説。Googleが重要ページを早期発見するための実用的なヒント付き。

簡易定義: クロールバジェットとは、Googleが特定の期間内(通常は1日あたり)にサイト上でクロールするページ数のことです。サイトに10,000ページあるのに、Googleが1日100ページしかクロールしなければ、すべてをインデックスするのに100日かかります。その間に新規ページを追加しないことを前提としても、です。

重要な洞察: 小規模サイト(1,000ページ未満)はクロールバジェットを心配する必要はほとんどありません。大規模サイト、Eコマースストア、ニュースサイトは最適化すべきです。

TLDR

クロールバジェットとは、Googleが1日あたりサイト上でクロールするページ数を指します。1,000ページ未満の小規模サイトは心配不要です。Googleは数日以内に完全にクロールします。大規模サイトでは、重複コンテンツ、リダイレクトチェーン、リンク切れ、無限のフィルター組み合わせにバジェットが浪費されます。あるEコマースサイトでは、低価値のフィルターページをブロックした結果、1日あたりクロール数が500商品から2,000商品に増加し、新商品のインデックス所要期間が数ヶ月から1週間に短縮されました。最適化の方法は、XMLサイトマップの送信、低価値ページのブロック、サーバー速度の改善です。


クロールバジェットの仕組み

Googleのクローラー(Googlebot)はリソースが限られています。以下を判断します:

  1. サイト上で何ページクロールするか(クロールレート)
  2. どのページを優先するか(クロール需要)

クロールレート上限:

  • サーバーの処理能力によって決定されます
  • Googleはサーバーをクラッシュさせるほど高速にはクロールしません
  • 高速サーバーと優れたホスティングを持つサイトでは高くなります

クロール需要:

  • そのページの人気度はどうか(トラフィック、被リンク)
  • 更新頻度はどうか
  • 既にインデックスされ、ランキングされているか

クロールバジェット = レート上限 × 需要


クロールバジェットを気にすべきは誰か

最適化すべき場合:

  • 10,000以上の商品を持つEコマースサイト
  • 1日50本以上の記事を公開するニュースサイト
  • 数百万ページを持つサイト(大規模ディレクトリ、データベース)
  • 多数の言語・国別バリエーションを持つ国際サイト
  • URLパラメータが多いサイト(フィルター、ソート、セッション)
  • インデックス遅延に悩むサイト(新規ページが表示されるまで数週間かかる)

おそらく心配不要な場合:

  • 1,000ページ未満のブログ
  • 中小企業サイト(5~50ページ)
  • ポートフォリオまたはブローシャサイト
  • コンテンツが限定的な新規サイト

Google公式ガイダンス: 1,000URL未満のサイトは介入なしで効率的にクロールされます。


クロールバジェットを浪費するもの

1. 重複コンテンツ

問題:

example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue

Googleは4つのURLをクロールしますが、すべて同じコンテンツです。

修正方法:

  • /product/blue-widgetを指すcanonicalタグを使用する
  • robots.txtでパラメータをブロックする:Disallow: /*?
  • Google Search Consoleでパラメータ処理を設定する

2. 低品質・薄いコンテンツのページ

例:

  • 空のカテゴリーページ
  • 「結果が見つかりません」の検索ページ
  • 内容が乏しいページネーションページ
  • 自動生成のドアウェイページ

修正方法:

  • 薄いページにnoindexを設定する
  • コンテンツを統合する
  • robots.txtでクロールをブロックする

3. ソフト404(偽の404)

問題: 存在しないページが、404 Not Foundではなく200 OKを返すこと。

例:

GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"

Googleはこれらを実在のページと考えてクロールし、バジェットを浪費します。

修正方法: 存在しないページには適切な404ステータスコードを返してください。

4. リダイレクトチェーン

問題:

Page A → 301 → Page B → 301 → Page C → 301 → Page D

Googleは最終目的地に到達するために4つのURLをクロールする必要があります。

修正方法: 直接リダイレクトしてください:

Page A → 301 → Page D
Page B → 301 → Page D
Page C → 301 → Page D

5. 無限スペース(ファセットナビゲーション)

問題: Eコマースのフィルターが数百万の組み合わせを生成すること:

/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...

修正方法:

  • フィルターページにnoindexを使用する
  • メインカテゴリーへのrel="canonical"を実装する
  • robots.txtでフィルターパラメータをブロックする
  • AJAXフィルターを使用する(URLが変化しない方式)

6. リンク切れ(404)

問題: 内部リンクが存在しないページを指していること。

バジェットを浪費する理由: Googleは404をクロールし、有用な情報を得られませんが、依然としてバジェットに計上されます。

修正方法:

  • 定期的なリンク切れ監査を実施する(Screaming Frog、Ahrefs)
  • 内部404を修正する(リンクを更新するかリダイレクトする)

7. 孤立ページ

問題: 内部リンクがゼロのページが存在すること。

重要な理由: Googleがサイトナビゲーションを通してページを発見できなければ、外部被リンクがない限りクロールされない可能性があります。

修正方法:

  • ページをサイトマップに追加する
  • 関連ページからリンクを張る
  • クロールツールで孤立ページを確認する

クロールバジェットの最適化方法

1. XMLサイトマップを送信する

有効な理由: Googleにどのページが存在し、どの程度の頻度で変更されるかを正確に伝えます。

方法:

  • サイトマップを生成する(多くのCMSは自動的に行います)
  • Google Search Console経由で送信する
  • 最新状態に保つ(削除されたページを除去し、新規ページを追加する)

サイトマップの優先度:

<url>
  <loc>https://example.com/important-page</loc>
  <priority>1.0</priority>
  <changefreq>daily</changefreq>
</url>

注意: 優先度(priority)と変更頻度(changefreq)はヒントであり、命令ではありません。Googleは無視する場合があります。

2. クロールエラーを修正する

Google Search Consoleを確認:

  • カバレッジ → エラー
  • サーバーエラー(500、503)を探す
  • 壊れたリダイレクトを修正する
  • DNS問題を解決する

よくあるエラー:

  • Server error (5xx)
  • Redirect error
  • Submitted URL not found (404)

3. サイト速度を改善する

重要な理由: より高速なサーバー = Googleが同じ時間内により多くのページをクロールできます。

最適化:

  • ホスティングをアップグレードする(共有 → VPS → 専用)
  • gzip圧縮を有効化する
  • データベースクエリを最適化する
  • 静的アセットにはCDNを使用する
  • サーバーレスポンス時間を短縮する(200ms未満を目標)

速度の確認:

  • Google Search Console → 設定 → クロールの統計情報
  • 平均レスポンス時間、1日あたりのクロールリクエスト数を表示

4. robots.txtを戦略的に活用する

低価値ページをブロック:

User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/

高価値ページを許可:

Allow: /products/
Allow: /blog/

5. URLパラメータを管理する

Google Search Console → 設定 → URLパラメータ:

  • ソート(price-low-high): Googleに無視するよう指示
  • フィルター(color=red): 代表URL
  • ページネーション(page=2): Googlebotに判断を委ねる
  • トラッキング(utm_source): Googleに無視するよう指示

設定例:

Parameter: color
Effect: No URLs
Googlebot: No URLs (パラメータがページコンテンツを大きく変えない)

6. コンテンツを定期的に更新する

理由: Googleは頻繁に変更されるページのクロールを優先します。

戦略:

  • 古いブログ記事を更新する(新情報を追加し、日付を更新する)
  • 商品説明を最新に保つ
  • 古い季節コンテンツを削除する
  • 新規コンテンツを継続的に公開する

Googleがクロールしている証拠:

  • Google Search Console → 設定 → クロールの統計情報
  • 「合計クロールリクエスト数」を時系列で確認する

7. 内部リンク

有効な理由: Googleはリンクをたどってページを発見します。内部リンクが多いほど発見が容易になります。

ベストプラクティス:

  • 権威性の高いページ(ホームページ、人気記事)から新規ページへリンクする
  • 説明的なアンカーテキストを使用する
  • 重要ページを5クリック以上深い場所に埋もれさせない
  • 関連コンテンツへリンクするハブページを作成する

8. クロールレートを監視・調整する

Google Search Console → 設定 → クロール頻度:

  • 現在のクロールレート(リクエスト数/日)を表示
  • 増加させることはできず、減少させることのみ可能(Googleがサーバーに負荷をかけている場合)

クロールレートが低すぎる場合:

  • サーバー速度を改善する
  • クロールエラーを修正する
  • 重要ページへの内部リンクを追加する
  • コンテンツをより頻繁に更新する

クロールバジェットの確認方法

Google Search Console

設定 → クロールの統計情報:

  • 合計クロールリクエスト数: 1日あたりクロールされたページ
  • 合計ダウンロードサイズ: 転送されたデータ量
  • 平均レスポンス時間: サーバー速度
  • ステータス別クロールリクエスト: 200、404、301など

良好な統計値の目安:

  • 時系列でクロールリクエストが増加(コンテンツ追加時)
  • ほとんどのリクエストが200 OKを返している
  • 404500エラーが少ない
  • 平均レスポンス時間が500ms未満

警告サイン:

  • クロールリクエストの減少(Googleが関心を失っている)
  • 多数の500エラー(サーバー問題)
  • レスポンス時間が遅い(1秒超)

サーバーログ

上級者向け: サーバーログを分析して、Googlebotが何をクロールしているか正確に確認します。

ツール:

  • Screaming Frog Log File Analyzer
  • Splunk
  • カスタムスクリプト(grep/awk)

確認項目:

  • Googleが最も多くクロールするページ
  • Googleが決してクロールしないページ(孤立ページ)
  • セクションごとのクロール頻度

ケーススタディ:Eコマースサイト

問題:

  • 50,000の商品ページ
  • Googleのクロールは1日500ページ
  • 新商品のインデックスに3ヶ月以上かかる

調査:

  • クロールバジェットの70%がフィルターページに浪費(/shoes?color=red&size=10...
  • 15%がセッションIDに浪費(/product?session=abc123
  • 10%が壊れた画像、CSSファイルに費やされていた

解決策:

  1. すべてのフィルター組み合わせページをnoindex化
  2. robots.txtでセッションパラメータをブロック
  3. リンク切れを修正
  4. 商品のみのサイトマップを送信

結果:

  • クロールバジェットが実際の商品ページに移行
  • Googleは現在1日2,000商品以上をクロール
  • 新商品が1週間以内にインデックスされる

よくある誤解

誤解:「ページ数が多いほどSEOに有利」

実際: 10,000の薄いページはクロールバジェットを浪費します。100の高品質ページの方がランクが高くなります。

誤解:「リクエストすればクロールバジェットを増やせる」

実際: Googleはサイトの権威性、サーバー速度、コンテンツ品質に基づきクロールバジェットを設定します。手動で増加させることはできません。

誤解:「XMLサイトマップはクロールバジェットを増やす」

実際: サイトマップはGoogleがページを発見するのに役立ちますが、1日あたりにクロールされる総ページ数を増加させるものではありません。どのページがクロールされるかの優先順位付けに役立ちます。

誤解:「小規模サイトもクロールバジェットを最適化する必要がある」

実際: サイトに1,000ページ未満しかなければ、Googleは数日以内に完全にクロールします。最適化に時間を浪費しないでください。


クイックリファレンス

クロールバジェットを浪費するもの:

  • 重複コンテンツ
  • リダイレクトチェーン
  • ソフト404
  • URLパラメータ(フィルター、ソート、トラッキング)
  • 遅いサーバーレスポンス
  • リンク切れ

クロールバジェットの最適化:

  • XMLサイトマップを送信する
  • robots.txtで低価値ページをブロックする
  • クロールエラーを修正する(500番台、リダイレクト)
  • サーバー速度を改善する
  • Search ConsoleでURLパラメータを管理する
  • 重要ページへの内部リンクを追加する

Surmadoが確認する内容

Site Auditで以下を検出します:

  • クロールエラー(500、404、リダイレクトチェーン)
  • クロールバジェットを浪費する重複コンテンツ
  • 無限スペースを生成するURLパラメータ
  • 遅いサーバーレスポンス時間
  • 内部リンクされていない孤立ページ

関連: Robots.txt Essentials | XML Sitemaps Explained | Server Response Codes

次のステップ

Site Auditを試す、またはレポートを実行する($50)でクロール効率を最適化 | ログイン

Site Auditの全機能を見る →

次の一歩へ

Scoutが約15分でブランドを調査します。