簡易定義: クロールバジェットとは、Googleが特定の期間内(通常は1日あたり)にサイト上でクロールするページ数のことです。サイトに10,000ページあるのに、Googleが1日100ページしかクロールしなければ、すべてをインデックスするのに100日かかります。その間に新規ページを追加しないことを前提としても、です。
重要な洞察: 小規模サイト(1,000ページ未満)はクロールバジェットを心配する必要はほとんどありません。大規模サイト、Eコマースストア、ニュースサイトは最適化すべきです。
TLDR
クロールバジェットとは、Googleが1日あたりサイト上でクロールするページ数を指します。1,000ページ未満の小規模サイトは心配不要です。Googleは数日以内に完全にクロールします。大規模サイトでは、重複コンテンツ、リダイレクトチェーン、リンク切れ、無限のフィルター組み合わせにバジェットが浪費されます。あるEコマースサイトでは、低価値のフィルターページをブロックした結果、1日あたりクロール数が500商品から2,000商品に増加し、新商品のインデックス所要期間が数ヶ月から1週間に短縮されました。最適化の方法は、XMLサイトマップの送信、低価値ページのブロック、サーバー速度の改善です。
クロールバジェットの仕組み
Googleのクローラー(Googlebot)はリソースが限られています。以下を判断します:
- サイト上で何ページクロールするか(クロールレート)
- どのページを優先するか(クロール需要)
クロールレート上限:
- サーバーの処理能力によって決定されます
- Googleはサーバーをクラッシュさせるほど高速にはクロールしません
- 高速サーバーと優れたホスティングを持つサイトでは高くなります
クロール需要:
- そのページの人気度はどうか(トラフィック、被リンク)
- 更新頻度はどうか
- 既にインデックスされ、ランキングされているか
クロールバジェット = レート上限 × 需要
クロールバジェットを気にすべきは誰か
最適化すべき場合:
- 10,000以上の商品を持つEコマースサイト
- 1日50本以上の記事を公開するニュースサイト
- 数百万ページを持つサイト(大規模ディレクトリ、データベース)
- 多数の言語・国別バリエーションを持つ国際サイト
- URLパラメータが多いサイト(フィルター、ソート、セッション)
- インデックス遅延に悩むサイト(新規ページが表示されるまで数週間かかる)
おそらく心配不要な場合:
- 1,000ページ未満のブログ
- 中小企業サイト(5~50ページ)
- ポートフォリオまたはブローシャサイト
- コンテンツが限定的な新規サイト
Google公式ガイダンス: 1,000URL未満のサイトは介入なしで効率的にクロールされます。
クロールバジェットを浪費するもの
1. 重複コンテンツ
問題:
example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue
Googleは4つのURLをクロールしますが、すべて同じコンテンツです。
修正方法:
/product/blue-widgetを指すcanonicalタグを使用する- robots.txtでパラメータをブロックする:
Disallow: /*? - Google Search Consoleでパラメータ処理を設定する
2. 低品質・薄いコンテンツのページ
例:
- 空のカテゴリーページ
- 「結果が見つかりません」の検索ページ
- 内容が乏しいページネーションページ
- 自動生成のドアウェイページ
修正方法:
- 薄いページにnoindexを設定する
- コンテンツを統合する
- robots.txtでクロールをブロックする
3. ソフト404(偽の404)
問題: 存在しないページが、404 Not Foundではなく200 OKを返すこと。
例:
GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"
Googleはこれらを実在のページと考えてクロールし、バジェットを浪費します。
修正方法: 存在しないページには適切な404ステータスコードを返してください。
4. リダイレクトチェーン
問題:
Page A → 301 → Page B → 301 → Page C → 301 → Page D
Googleは最終目的地に到達するために4つのURLをクロールする必要があります。
修正方法: 直接リダイレクトしてください:
Page A → 301 → Page D
Page B → 301 → Page D
Page C → 301 → Page D
5. 無限スペース(ファセットナビゲーション)
問題: Eコマースのフィルターが数百万の組み合わせを生成すること:
/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...
修正方法:
- フィルターページに
noindexを使用する - メインカテゴリーへの
rel="canonical"を実装する - robots.txtでフィルターパラメータをブロックする
- AJAXフィルターを使用する(URLが変化しない方式)
6. リンク切れ(404)
問題: 内部リンクが存在しないページを指していること。
バジェットを浪費する理由: Googleは404をクロールし、有用な情報を得られませんが、依然としてバジェットに計上されます。
修正方法:
- 定期的なリンク切れ監査を実施する(Screaming Frog、Ahrefs)
- 内部404を修正する(リンクを更新するかリダイレクトする)
7. 孤立ページ
問題: 内部リンクがゼロのページが存在すること。
重要な理由: Googleがサイトナビゲーションを通してページを発見できなければ、外部被リンクがない限りクロールされない可能性があります。
修正方法:
- ページをサイトマップに追加する
- 関連ページからリンクを張る
- クロールツールで孤立ページを確認する
クロールバジェットの最適化方法
1. XMLサイトマップを送信する
有効な理由: Googleにどのページが存在し、どの程度の頻度で変更されるかを正確に伝えます。
方法:
- サイトマップを生成する(多くのCMSは自動的に行います)
- Google Search Console経由で送信する
- 最新状態に保つ(削除されたページを除去し、新規ページを追加する)
サイトマップの優先度:
<url>
<loc>https://example.com/important-page</loc>
<priority>1.0</priority>
<changefreq>daily</changefreq>
</url>
注意: 優先度(priority)と変更頻度(changefreq)はヒントであり、命令ではありません。Googleは無視する場合があります。
2. クロールエラーを修正する
Google Search Consoleを確認:
- カバレッジ → エラー
- サーバーエラー(500、503)を探す
- 壊れたリダイレクトを修正する
- DNS問題を解決する
よくあるエラー:
Server error (5xx)Redirect errorSubmitted URL not found (404)
3. サイト速度を改善する
重要な理由: より高速なサーバー = Googleが同じ時間内により多くのページをクロールできます。
最適化:
- ホスティングをアップグレードする(共有 → VPS → 専用)
- gzip圧縮を有効化する
- データベースクエリを最適化する
- 静的アセットにはCDNを使用する
- サーバーレスポンス時間を短縮する(200ms未満を目標)
速度の確認:
- Google Search Console → 設定 → クロールの統計情報
- 平均レスポンス時間、1日あたりのクロールリクエスト数を表示
4. robots.txtを戦略的に活用する
低価値ページをブロック:
User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/
高価値ページを許可:
Allow: /products/
Allow: /blog/
5. URLパラメータを管理する
Google Search Console → 設定 → URLパラメータ:
- ソート(price-low-high): Googleに無視するよう指示
- フィルター(color=red): 代表URL
- ページネーション(page=2): Googlebotに判断を委ねる
- トラッキング(utm_source): Googleに無視するよう指示
設定例:
Parameter: color
Effect: No URLs
Googlebot: No URLs (パラメータがページコンテンツを大きく変えない)
6. コンテンツを定期的に更新する
理由: Googleは頻繁に変更されるページのクロールを優先します。
戦略:
- 古いブログ記事を更新する(新情報を追加し、日付を更新する)
- 商品説明を最新に保つ
- 古い季節コンテンツを削除する
- 新規コンテンツを継続的に公開する
Googleがクロールしている証拠:
- Google Search Console → 設定 → クロールの統計情報
- 「合計クロールリクエスト数」を時系列で確認する
7. 内部リンク
有効な理由: Googleはリンクをたどってページを発見します。内部リンクが多いほど発見が容易になります。
ベストプラクティス:
- 権威性の高いページ(ホームページ、人気記事)から新規ページへリンクする
- 説明的なアンカーテキストを使用する
- 重要ページを5クリック以上深い場所に埋もれさせない
- 関連コンテンツへリンクするハブページを作成する
8. クロールレートを監視・調整する
Google Search Console → 設定 → クロール頻度:
- 現在のクロールレート(リクエスト数/日)を表示
- 増加させることはできず、減少させることのみ可能(Googleがサーバーに負荷をかけている場合)
クロールレートが低すぎる場合:
- サーバー速度を改善する
- クロールエラーを修正する
- 重要ページへの内部リンクを追加する
- コンテンツをより頻繁に更新する
クロールバジェットの確認方法
Google Search Console
設定 → クロールの統計情報:
- 合計クロールリクエスト数: 1日あたりクロールされたページ
- 合計ダウンロードサイズ: 転送されたデータ量
- 平均レスポンス時間: サーバー速度
- ステータス別クロールリクエスト: 200、404、301など
良好な統計値の目安:
- 時系列でクロールリクエストが増加(コンテンツ追加時)
- ほとんどのリクエストが
200 OKを返している 404と500エラーが少ない- 平均レスポンス時間が500ms未満
警告サイン:
- クロールリクエストの減少(Googleが関心を失っている)
- 多数の
500エラー(サーバー問題) - レスポンス時間が遅い(1秒超)
サーバーログ
上級者向け: サーバーログを分析して、Googlebotが何をクロールしているか正確に確認します。
ツール:
- Screaming Frog Log File Analyzer
- Splunk
- カスタムスクリプト(grep/awk)
確認項目:
- Googleが最も多くクロールするページ
- Googleが決してクロールしないページ(孤立ページ)
- セクションごとのクロール頻度
ケーススタディ:Eコマースサイト
問題:
- 50,000の商品ページ
- Googleのクロールは1日500ページ
- 新商品のインデックスに3ヶ月以上かかる
調査:
- クロールバジェットの70%がフィルターページに浪費(
/shoes?color=red&size=10...) - 15%がセッションIDに浪費(
/product?session=abc123) - 10%が壊れた画像、CSSファイルに費やされていた
解決策:
- すべてのフィルター組み合わせページをnoindex化
- robots.txtでセッションパラメータをブロック
- リンク切れを修正
- 商品のみのサイトマップを送信
結果:
- クロールバジェットが実際の商品ページに移行
- Googleは現在1日2,000商品以上をクロール
- 新商品が1週間以内にインデックスされる
よくある誤解
誤解:「ページ数が多いほどSEOに有利」
実際: 10,000の薄いページはクロールバジェットを浪費します。100の高品質ページの方がランクが高くなります。
誤解:「リクエストすればクロールバジェットを増やせる」
実際: Googleはサイトの権威性、サーバー速度、コンテンツ品質に基づきクロールバジェットを設定します。手動で増加させることはできません。
誤解:「XMLサイトマップはクロールバジェットを増やす」
実際: サイトマップはGoogleがページを発見するのに役立ちますが、1日あたりにクロールされる総ページ数を増加させるものではありません。どのページがクロールされるかの優先順位付けに役立ちます。
誤解:「小規模サイトもクロールバジェットを最適化する必要がある」
実際: サイトに1,000ページ未満しかなければ、Googleは数日以内に完全にクロールします。最適化に時間を浪費しないでください。
クイックリファレンス
クロールバジェットを浪費するもの:
- 重複コンテンツ
- リダイレクトチェーン
- ソフト404
- URLパラメータ(フィルター、ソート、トラッキング)
- 遅いサーバーレスポンス
- リンク切れ
クロールバジェットの最適化:
- XMLサイトマップを送信する
- robots.txtで低価値ページをブロックする
- クロールエラーを修正する(500番台、リダイレクト)
- サーバー速度を改善する
- Search ConsoleでURLパラメータを管理する
- 重要ページへの内部リンクを追加する
Surmadoが確認する内容
Site Auditで以下を検出します:
- クロールエラー(500、404、リダイレクトチェーン)
- クロールバジェットを浪費する重複コンテンツ
- 無限スペースを生成するURLパラメータ
- 遅いサーバーレスポンス時間
- 内部リンクされていない孤立ページ
→ 関連: Robots.txt Essentials | XML Sitemaps Explained | Server Response Codes
次のステップ
Site Auditを試す、またはレポートを実行する($50)でクロール効率を最適化 | ログイン