Zum Hauptinhalt springen
Login

Crawl-Budget: Warum Google nicht alle Seiten indexiert

Erfahren Sie, was Crawl-Budget ist, warum es für große Websites wichtig ist und wie Sie es optimieren. Mit praktischen Tipps zur schnelleren Indexierung.

Kurzdefinition: Das Crawl-Budget ist die Anzahl der Seiten, die Google innerhalb eines bestimmten Zeitraums (meist pro Tag) auf Ihrer Website crawlt. Wenn Ihre Website 10.000 Seiten hat, Google aber nur 100 pro Tag crawlt, dauert es 100 Tage, bis alles indexiert ist. Vorausgesetzt, Sie fügen in der Zwischenzeit keine neuen Seiten hinzu.

Wichtige Erkenntnis: Kleine Websites (unter 1.000 Seiten) müssen sich selten Sorgen um das Crawl-Budget machen. Große Websites, E-Commerce-Shops und Nachrichtenseiten sollten es optimieren.

TLDR

Das Crawl-Budget gibt an, wie viele Seiten Google pro Tag auf Ihrer Website crawlt. Kleine Websites unter 1.000 Seiten brauchen sich keine Sorgen zu machen. Google crawlt sie innerhalb weniger Tage vollständig. Große Websites verschwenden Budget für doppelte Inhalte, Weiterleitungsketten, defekte Links und unendliche Filterkombinationen. Eine E-Commerce-Website blockierte minderwertige Filterseiten und steigerte sich von 500 täglich gecrawlten Produkten auf 2.000, wodurch die Indexierung neuer Produkte von Monaten auf eine Woche verkürzt wurde. Optimieren Sie, indem Sie eine XML-Sitemap einreichen, minderwertige Seiten blockieren und die Servergeschwindigkeit verbessern.


Wie das Crawl-Budget funktioniert

Der Crawler von Google (Googlebot) hat begrenzte Ressourcen. Er entscheidet:

  1. Wie viele Seiten gecrawlt werden auf Ihrer Website (Crawl-Rate)
  2. Welche Seiten priorisiert werden (Crawl-Bedarf)

Crawl-Rate-Limit:

  • Wird durch die Kapazität Ihres Servers bestimmt
  • Google crawlt nicht so schnell, dass Ihr Server abstürzt
  • Höher bei Websites mit schnellen Servern und gutem Hosting

Crawl-Bedarf:

  • Wie beliebt ist die Seite? (Traffic, Backlinks)
  • Wie häufig wird sie aktualisiert?
  • Ist sie bereits indexiert und rankt sie?

Crawl-Budget = Rate-Limit × Bedarf


Wer muss sich um das Crawl-Budget kümmern?

Sie SOLLTEN optimieren, wenn:

  • E-Commerce-Website mit über 10.000 Produkten
  • Nachrichtenseite mit über 50 Artikeln pro Tag
  • Website mit Millionen von Seiten (große Verzeichnisse, Datenbanken)
  • Internationale Website mit vielen Sprach- oder Länder-Varianten
  • Website mit vielen URL-Parametern (Filter, Sortierungen, Sessions)
  • Website mit langsamer Indexierung (neue Seiten erscheinen erst nach Wochen)

Sie müssen sich wahrscheinlich KEINE Sorgen machen, wenn:

  • Blog mit unter 1.000 Seiten
  • Kleine Unternehmensseite (5 bis 50 Seiten)
  • Portfolio- oder Broschüren-Website
  • Neue Website mit begrenztem Inhalt

Googles eigene Empfehlung: Websites mit unter 1.000 URLs werden ohne Eingriff effizient gecrawlt.


Was Crawl-Budget verschwendet

1. Doppelte Inhalte

Problem:

example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue

Google crawlt 4 URLs, aber sie haben alle denselben Inhalt.

Lösung:

  • Verwenden Sie Canonical-Tags, die auf /product/blue-widget verweisen
  • Blockieren Sie Parameter in der robots.txt: Disallow: /*?
  • Konfigurieren Sie die Parameterbehandlung in der Google Search Console

2. Minderwertige oder dünne Seiten

Beispiele:

  • Leere Kategorieseiten
  • Suchseiten mit „Keine Ergebnisse gefunden”
  • Paginierte Seiten mit minimalem Inhalt
  • Automatisch generierte Doorway-Seiten

Lösung:

  • Setzen Sie dünne Seiten auf noindex
  • Konsolidieren Sie Inhalte
  • Verwenden Sie die robots.txt, um das Crawlen zu blockieren

3. Soft 404s (falsche 404-Fehler)

Problem: Seiten, die nicht existieren, aber 200 OK statt 404 Not Found zurückgeben.

Beispiel:

GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"

Google crawlt diese in der Annahme, es seien echte Seiten, und verschwendet so Budget.

Lösung: Geben Sie für fehlende Seiten korrekte 404-Statuscodes zurück.

4. Weiterleitungsketten

Problem:

Seite A → 301 → Seite B → 301 → Seite C → 301 → Seite D

Google muss 4 URLs crawlen, um das endgültige Ziel zu erreichen.

Lösung: Direkt weiterleiten:

Seite A → 301 → Seite D
Seite B → 301 → Seite D
Seite C → 301 → Seite D

5. Unendliche Räume (Facettennavigation)

Problem: E-Commerce-Filter erzeugen Millionen von Kombinationen:

/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...

Lösung:

  • Verwenden Sie noindex auf gefilterten Seiten
  • Implementieren Sie rel="canonical" zur Hauptkategorie
  • Blockieren Sie Filterparameter in der robots.txt
  • Verwenden Sie AJAX-Filter (ohne URL-Änderung)

Problem: Interne Links, die auf nicht vorhandene Seiten verweisen.

Warum es Budget verschwendet: Google crawlt den 404-Fehler, erhält nichts Nützliches, aber er zählt trotzdem auf Ihr Budget.

Lösung:

  • Führen Sie regelmäßige Audits auf defekte Links durch (Screaming Frog, Ahrefs)
  • Beheben Sie interne 404-Fehler (aktualisieren Sie Links oder leiten Sie weiter)

7. Verwaiste Seiten

Problem: Seiten ohne interne Links, die auf sie verweisen.

Warum es wichtig ist: Wenn Google die Seite nicht über Ihre Navigation finden kann, wird sie möglicherweise nie gecrawlt (es sei denn, sie hat externe Backlinks).

Lösung:

  • Fügen Sie Seiten zu Ihrer Sitemap hinzu
  • Verlinken Sie sie von relevanten Seiten aus
  • Prüfen Sie mit Crawl-Tools auf verwaiste Seiten

Wie Sie das Crawl-Budget optimieren

1. XML-Sitemap einreichen

Warum es hilft: Sie teilt Google genau mit, welche Seiten existieren und wie oft sie sich ändern.

Vorgehen:

  • Sitemap generieren (die meisten CMS machen das automatisch)
  • Über die Google Search Console einreichen
  • Aktuell halten (gelöschte Seiten entfernen, neue hinzufügen)

Sitemap-Prioritäten:

<url>
  <loc>https://example.com/important-page</loc>
  <priority>1.0</priority>
  <changefreq>daily</changefreq>
</url>

Hinweis: Priority und changefreq sind Hinweise, keine Befehle. Google kann sie ignorieren.

2. Crawl-Fehler beheben

Prüfen Sie die Google Search Console:

  • Abdeckung → Fehler
  • Suchen Sie nach Serverfehlern (500, 503)
  • Beheben Sie defekte Weiterleitungen
  • Lösen Sie DNS-Probleme

Häufige Fehler:

  • Server error (5xx)
  • Redirect error
  • Submitted URL not found (404)

3. Seitengeschwindigkeit verbessern

Warum es wichtig ist: Schnellere Server = Google kann mehr Seiten in der gleichen Zeit crawlen.

Optimierungen:

  • Hosting upgraden (Shared → VPS → Dedicated)
  • Gzip-Komprimierung aktivieren
  • Datenbankabfragen optimieren
  • CDN für statische Assets nutzen
  • Server-Antwortzeit reduzieren (Ziel: unter 200 ms)

Geschwindigkeit prüfen:

  • Google Search Console → Einstellungen → Crawl-Statistiken
  • Zeigt durchschnittliche Antwortzeit, Crawl-Anfragen pro Tag

4. Robots.txt strategisch einsetzen

Minderwertige Seiten blockieren:

User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/

Hochwertige Seiten zulassen:

Allow: /products/
Allow: /blog/

5. URL-Parameter verwalten

Google Search Console → Einstellungen → URL-Parameter:

  • Sortierungen (price-low-high): Google anweisen zu ignorieren
  • Filter (color=red): Repräsentative URL
  • Paginierung (page=2): Googlebot entscheiden lassen
  • Tracking (utm_source): Google anweisen zu ignorieren

Beispielkonfiguration:

Parameter: color
Effect: No URLs
Googlebot: No URLs (parameter doesn't change page content significantly)

6. Inhalte regelmäßig aktualisieren

Warum: Google priorisiert das Crawlen von Seiten, die sich häufig ändern.

Strategie:

  • Alte Blogbeiträge auffrischen (neue Informationen ergänzen, Daten aktualisieren)
  • Produktbeschreibungen aktuell halten
  • Veraltete saisonale Inhalte entfernen
  • Konsistent neue Inhalte veröffentlichen

Belege, dass Google crawlt:

  • Google Search Console → Einstellungen → Crawl-Statistiken
  • Prüfen Sie „Gesamtzahl der Crawl-Anfragen” im Zeitverlauf

7. Interne Verlinkung

Warum es hilft: Google findet Seiten, indem es Links folgt. Mehr interne Links = einfachere Auffindbarkeit.

Best Practices:

  • Verlinken Sie neue Seiten von autoritätsstarken Seiten aus (Startseite, beliebte Beiträge)
  • Verwenden Sie aussagekräftige Ankertexte
  • Vergraben Sie wichtige Seiten nicht 5 oder mehr Klicks tief
  • Erstellen Sie Hub-Seiten, die zu verwandten Inhalten verlinken

8. Crawl-Rate überwachen und anpassen

Google Search Console → Einstellungen → Crawl-Rate:

  • Zeigt die aktuelle Crawl-Rate (Anfragen pro Tag)
  • Sie können sie nicht erhöhen, nur verringern (wenn Google Ihren Server überlastet)

Wenn die Crawl-Rate zu niedrig ist:

  • Servergeschwindigkeit verbessern
  • Crawl-Fehler beheben
  • Interne Links zu wichtigen Seiten ergänzen
  • Inhalte häufiger aktualisieren

Ihr Crawl-Budget prüfen

Google Search Console

Einstellungen → Crawl-Statistiken:

  • Gesamtzahl der Crawl-Anfragen: Pro Tag gecrawlte Seiten
  • Gesamte Downloadgröße: Übertragene Daten
  • Durchschnittliche Antwortzeit: Servergeschwindigkeit
  • Crawl-Anfragen nach Status: 200, 404, 301 usw.

So sehen gute Statistiken aus:

  • Crawl-Anfragen steigen im Zeitverlauf (wenn Inhalte hinzugefügt werden)
  • Die meisten Anfragen geben 200 OK zurück
  • Wenige 404- und 500-Fehler
  • Durchschnittliche Antwortzeit unter 500 ms

Warnsignale:

  • Sinkende Crawl-Anfragen (Google verliert das Interesse)
  • Viele 500-Fehler (Serverprobleme)
  • Langsame Antwortzeiten (> 1 Sekunde)

Server-Logs

Fortgeschritten: Analysieren Sie Server-Logs, um genau zu sehen, was Googlebot crawlt.

Tools:

  • Screaming Frog Log File Analyzer
  • Splunk
  • Eigene Skripte (grep/awk)

Worauf Sie achten sollten:

  • Welche Seiten Google am häufigsten crawlt
  • Seiten, die Google nie crawlt (verwaiste Seiten)
  • Crawl-Häufigkeit pro Bereich

Fallstudie: E-Commerce-Website

Problem:

  • 50.000 Produktseiten
  • Google crawlt 500 Seiten pro Tag
  • Neue Produkte brauchen über 3 Monate bis zur Indexierung

Untersuchung:

  • 70 % des Crawl-Budgets werden für Filterseiten verschwendet (/shoes?color=red&size=10...)
  • 15 % werden für Session-IDs verschwendet (/product?session=abc123)
  • 10 % für defekte Bilder, CSS-Dateien

Lösung:

  1. Alle Filterkombinationsseiten auf noindex gesetzt
  2. Session-Parameter in der robots.txt blockiert
  3. Defekte Links behoben
  4. Sitemap nur mit Produkten eingereicht

Ergebnis:

  • Crawl-Budget verlagerte sich auf tatsächliche Produktseiten
  • Google crawlt jetzt über 2.000 Produkte pro Tag
  • Neue Produkte werden innerhalb einer Woche indexiert

Häufige Mythen

Mythos: „Mehr Seiten = besseres SEO”

Realität: 10.000 dünne Seiten verschwenden Crawl-Budget. 100 hochwertige Seiten ranken besser.

Mythos: „Ich kann das Crawl-Budget durch eine Anfrage erhöhen”

Realität: Google legt das Crawl-Budget basierend auf der Autorität Ihrer Website, der Servergeschwindigkeit und der Inhaltsqualität fest. Sie können es nicht manuell erhöhen.

Mythos: „XML-Sitemaps erhöhen das Crawl-Budget”

Realität: Sitemaps helfen Google, Seiten zu entdecken, erhöhen aber nicht die Gesamtzahl der pro Tag gecrawlten Seiten. Sie helfen zu priorisieren, WELCHE Seiten gecrawlt werden.

Mythos: „Kleine Websites müssen das Crawl-Budget optimieren”

Realität: Wenn Ihre Website unter 1.000 Seiten hat, crawlt Google sie innerhalb weniger Tage vollständig. Verschwenden Sie keine Zeit mit Optimierung.


Schnellreferenz

Crawl-Budget-Verschwender:

  • Doppelte Inhalte
  • Weiterleitungsketten
  • Soft 404s
  • URL-Parameter (Filter, Sortierungen, Tracking)
  • Langsame Server-Antwort
  • Defekte Links

Crawl-Budget-Optimierungen:

  • XML-Sitemap einreichen
  • Robots.txt nutzen, um minderwertige Seiten zu blockieren
  • Crawl-Fehler beheben (500er-Fehler, Weiterleitungen)
  • Servergeschwindigkeit verbessern
  • URL-Parameter in der Search Console verwalten
  • Interne Links zu wichtigen Seiten ergänzen

Was Surmado prüft

Site Audit sucht nach:

  • Crawl-Fehlern (500, 404, Weiterleitungsketten)
  • Doppelten Inhalten, die Crawl-Budget verschwenden
  • URL-Parametern, die unendliche Räume erzeugen
  • Langsamen Server-Antwortzeiten
  • Verwaisten Seiten ohne interne Verlinkung

Verwandt: Robots.txt Essentials | XML Sitemaps Explained | Server Response Codes

Nächste Schritte

Site Audit ausprobieren oder Bericht erstellen lassen (50 USD), um die Crawl-Effizienz zu optimieren | Anmelden

Alle Site Audit-Funktionen ansehen →

Bereit für den nächsten Schritt?

Scout recherchiert Ihre Marke in ~15 Minuten.