Crawl-Budget: Warum Google nicht alle Seiten indexiert

Kurzdefinition: Das Crawl-Budget ist die Anzahl der Seiten, die Google innerhalb eines bestimmten Zeitraums (meist pro Tag) auf Ihrer Website crawlt. Wenn Ihre Website 10.000 Seiten hat, Google aber nur 100 pro Tag crawlt, dauert es 100 Tage, bis alles indexiert ist. Vorausgesetzt, Sie fügen in der Zwischenzeit keine neuen Seiten hinzu.

Wichtige Erkenntnis: Kleine Websites (unter 1.000 Seiten) müssen sich selten Sorgen um das Crawl-Budget machen. Große Websites, E-Commerce-Shops und Nachrichtenseiten sollten es optimieren.

TLDR

Das Crawl-Budget gibt an, wie viele Seiten Google pro Tag auf Ihrer Website crawlt. Kleine Websites unter 1.000 Seiten brauchen sich keine Sorgen zu machen. Google crawlt sie innerhalb weniger Tage vollständig. Große Websites verschwenden Budget für doppelte Inhalte, Weiterleitungsketten, defekte Links und unendliche Filterkombinationen. Eine E-Commerce-Website blockierte minderwertige Filterseiten und steigerte sich von 500 täglich gecrawlten Produkten auf 2.000, wodurch die Indexierung neuer Produkte von Monaten auf eine Woche verkürzt wurde. Optimieren Sie, indem Sie eine XML-Sitemap einreichen, minderwertige Seiten blockieren und die Servergeschwindigkeit verbessern.

Wie das Crawl-Budget funktioniert

Der Crawler von Google (Googlebot) hat begrenzte Ressourcen. Er entscheidet:

Wie viele Seiten gecrawlt werden auf Ihrer Website (Crawl-Rate)
Welche Seiten priorisiert werden (Crawl-Bedarf)

Crawl-Rate-Limit:

Wird durch die Kapazität Ihres Servers bestimmt
Google crawlt nicht so schnell, dass Ihr Server abstürzt
Höher bei Websites mit schnellen Servern und gutem Hosting

Crawl-Bedarf:

Wie beliebt ist die Seite? (Traffic, Backlinks)
Wie häufig wird sie aktualisiert?
Ist sie bereits indexiert und rankt sie?

Crawl-Budget = Rate-Limit × Bedarf

Wer muss sich um das Crawl-Budget kümmern?

Sie SOLLTEN optimieren, wenn:

E-Commerce-Website mit über 10.000 Produkten
Nachrichtenseite mit über 50 Artikeln pro Tag
Website mit Millionen von Seiten (große Verzeichnisse, Datenbanken)
Internationale Website mit vielen Sprach- oder Länder-Varianten
Website mit vielen URL-Parametern (Filter, Sortierungen, Sessions)
Website mit langsamer Indexierung (neue Seiten erscheinen erst nach Wochen)

Sie müssen sich wahrscheinlich KEINE Sorgen machen, wenn:

Blog mit unter 1.000 Seiten
Kleine Unternehmensseite (5 bis 50 Seiten)
Portfolio- oder Broschüren-Website
Neue Website mit begrenztem Inhalt

Googles eigene Empfehlung: Websites mit unter 1.000 URLs werden ohne Eingriff effizient gecrawlt.

Was Crawl-Budget verschwendet

1. Doppelte Inhalte

Problem:

example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue

Google crawlt 4 URLs, aber sie haben alle denselben Inhalt.

Lösung:

Verwenden Sie Canonical-Tags, die auf /product/blue-widget verweisen
Blockieren Sie Parameter in der robots.txt: Disallow: /*?
Konfigurieren Sie die Parameterbehandlung in der Google Search Console

2. Minderwertige oder dünne Seiten

Beispiele:

Leere Kategorieseiten
Suchseiten mit „Keine Ergebnisse gefunden“
Paginierte Seiten mit minimalem Inhalt
Automatisch generierte Doorway-Seiten

Lösung:

Setzen Sie dünne Seiten auf noindex
Konsolidieren Sie Inhalte
Verwenden Sie die robots.txt, um das Crawlen zu blockieren

3. Soft 404s (falsche 404-Fehler)

Problem: Seiten, die nicht existieren, aber 200 OK statt 404 Not Found zurückgeben.

Beispiel:

GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"

Google crawlt diese in der Annahme, es seien echte Seiten, und verschwendet so Budget.

Lösung: Geben Sie für fehlende Seiten korrekte 404-Statuscodes zurück.

4. Weiterleitungsketten

Problem:

Seite A → 301 → Seite B → 301 → Seite C → 301 → Seite D

Google muss 4 URLs crawlen, um das endgültige Ziel zu erreichen.

Lösung: Direkt weiterleiten:

Seite A → 301 → Seite D
Seite B → 301 → Seite D
Seite C → 301 → Seite D

5. Unendliche Räume (Facettennavigation)

Problem: E-Commerce-Filter erzeugen Millionen von Kombinationen:

/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...

Lösung:

Verwenden Sie noindex auf gefilterten Seiten
Implementieren Sie rel="canonical" zur Hauptkategorie
Blockieren Sie Filterparameter in der robots.txt
Verwenden Sie AJAX-Filter (ohne URL-Änderung)

6. Defekte Links (404-Fehler)

Problem: Interne Links, die auf nicht vorhandene Seiten verweisen.

Warum es Budget verschwendet: Google crawlt den 404-Fehler, erhält nichts Nützliches, aber er zählt trotzdem auf Ihr Budget.

Lösung:

Führen Sie regelmäßige Audits auf defekte Links durch (Screaming Frog, Ahrefs)
Beheben Sie interne 404-Fehler (aktualisieren Sie Links oder leiten Sie weiter)

7. Verwaiste Seiten

Problem: Seiten ohne interne Links, die auf sie verweisen.

Warum es wichtig ist: Wenn Google die Seite nicht über Ihre Navigation finden kann, wird sie möglicherweise nie gecrawlt (es sei denn, sie hat externe Backlinks).

Lösung:

Fügen Sie Seiten zu Ihrer Sitemap hinzu
Verlinken Sie sie von relevanten Seiten aus
Prüfen Sie mit Crawl-Tools auf verwaiste Seiten

Wie Sie das Crawl-Budget optimieren

1. XML-Sitemap einreichen

Warum es hilft: Sie teilt Google genau mit, welche Seiten existieren und wie oft sie sich ändern.

Vorgehen:

Sitemap generieren (die meisten CMS machen das automatisch)
Über die Google Search Console einreichen
Aktuell halten (gelöschte Seiten entfernen, neue hinzufügen)

Sitemap-Prioritäten:

<url>
  <loc>https://example.com/important-page</loc>
  <priority>1.0</priority>
  <changefreq>daily</changefreq>
</url>

Hinweis: Priority und changefreq sind Hinweise, keine Befehle. Google kann sie ignorieren.

2. Crawl-Fehler beheben

Prüfen Sie die Google Search Console:

Abdeckung → Fehler
Suchen Sie nach Serverfehlern (500, 503)
Beheben Sie defekte Weiterleitungen
Lösen Sie DNS-Probleme

Häufige Fehler:

Server error (5xx)
Redirect error
Submitted URL not found (404)

3. Seitengeschwindigkeit verbessern

Warum es wichtig ist: Schnellere Server = Google kann mehr Seiten in der gleichen Zeit crawlen.

Optimierungen:

Hosting upgraden (Shared → VPS → Dedicated)
Gzip-Komprimierung aktivieren
Datenbankabfragen optimieren
CDN für statische Assets nutzen
Server-Antwortzeit reduzieren (Ziel: unter 200 ms)

Geschwindigkeit prüfen:

Google Search Console → Einstellungen → Crawl-Statistiken
Zeigt durchschnittliche Antwortzeit, Crawl-Anfragen pro Tag

4. Robots.txt strategisch einsetzen

Minderwertige Seiten blockieren:

User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/

Hochwertige Seiten zulassen:

Allow: /products/
Allow: /blog/

5. URL-Parameter verwalten

Google Search Console → Einstellungen → URL-Parameter:

Sortierungen (price-low-high): Google anweisen zu ignorieren
Filter (color=red): Repräsentative URL
Paginierung (page=2): Googlebot entscheiden lassen
Tracking (utm_source): Google anweisen zu ignorieren

Beispielkonfiguration:

Parameter: color
Effect: No URLs
Googlebot: No URLs (parameter doesn't change page content significantly)

6. Inhalte regelmäßig aktualisieren

Warum: Google priorisiert das Crawlen von Seiten, die sich häufig ändern.

Strategie:

Alte Blogbeiträge auffrischen (neue Informationen ergänzen, Daten aktualisieren)
Produktbeschreibungen aktuell halten
Veraltete saisonale Inhalte entfernen
Konsistent neue Inhalte veröffentlichen

Belege, dass Google crawlt:

Google Search Console → Einstellungen → Crawl-Statistiken
Prüfen Sie „Gesamtzahl der Crawl-Anfragen“ im Zeitverlauf

7. Interne Verlinkung

Warum es hilft: Google findet Seiten, indem es Links folgt. Mehr interne Links = einfachere Auffindbarkeit.

Best Practices:

Verlinken Sie neue Seiten von autoritätsstarken Seiten aus (Startseite, beliebte Beiträge)
Verwenden Sie aussagekräftige Ankertexte
Vergraben Sie wichtige Seiten nicht 5 oder mehr Klicks tief
Erstellen Sie Hub-Seiten, die zu verwandten Inhalten verlinken

8. Crawl-Rate überwachen und anpassen

Google Search Console → Einstellungen → Crawl-Rate:

Zeigt die aktuelle Crawl-Rate (Anfragen pro Tag)
Sie können sie nicht erhöhen, nur verringern (wenn Google Ihren Server überlastet)

Wenn die Crawl-Rate zu niedrig ist:

Servergeschwindigkeit verbessern
Crawl-Fehler beheben
Interne Links zu wichtigen Seiten ergänzen
Inhalte häufiger aktualisieren

Ihr Crawl-Budget prüfen

Google Search Console

Einstellungen → Crawl-Statistiken:

Gesamtzahl der Crawl-Anfragen: Pro Tag gecrawlte Seiten
Gesamte Downloadgröße: Übertragene Daten
Durchschnittliche Antwortzeit: Servergeschwindigkeit
Crawl-Anfragen nach Status: 200, 404, 301 usw.

So sehen gute Statistiken aus:

Crawl-Anfragen steigen im Zeitverlauf (wenn Inhalte hinzugefügt werden)
Die meisten Anfragen geben 200 OK zurück
Wenige 404- und 500-Fehler
Durchschnittliche Antwortzeit unter 500 ms

Warnsignale:

Sinkende Crawl-Anfragen (Google verliert das Interesse)
Viele 500-Fehler (Serverprobleme)
Langsame Antwortzeiten (> 1 Sekunde)

Server-Logs

Fortgeschritten: Analysieren Sie Server-Logs, um genau zu sehen, was Googlebot crawlt.

Tools:

Screaming Frog Log File Analyzer
Splunk
Eigene Skripte (grep/awk)

Worauf Sie achten sollten:

Welche Seiten Google am häufigsten crawlt
Seiten, die Google nie crawlt (verwaiste Seiten)
Crawl-Häufigkeit pro Bereich

Fallstudie: E-Commerce-Website

Problem:

50.000 Produktseiten
Google crawlt 500 Seiten pro Tag
Neue Produkte brauchen über 3 Monate bis zur Indexierung

Untersuchung:

70 % des Crawl-Budgets werden für Filterseiten verschwendet (/shoes?color=red&size=10...)
15 % werden für Session-IDs verschwendet (/product?session=abc123)
10 % für defekte Bilder, CSS-Dateien

Lösung:

Alle Filterkombinationsseiten auf noindex gesetzt
Session-Parameter in der robots.txt blockiert
Defekte Links behoben
Sitemap nur mit Produkten eingereicht

Ergebnis:

Crawl-Budget verlagerte sich auf tatsächliche Produktseiten
Google crawlt jetzt über 2.000 Produkte pro Tag
Neue Produkte werden innerhalb einer Woche indexiert

Häufige Mythen

Mythos: „Mehr Seiten = besseres SEO“

Realität: 10.000 dünne Seiten verschwenden Crawl-Budget. 100 hochwertige Seiten ranken besser.

Mythos: „Ich kann das Crawl-Budget durch eine Anfrage erhöhen“

Realität: Google legt das Crawl-Budget basierend auf der Autorität Ihrer Website, der Servergeschwindigkeit und der Inhaltsqualität fest. Sie können es nicht manuell erhöhen.

Mythos: „XML-Sitemaps erhöhen das Crawl-Budget“

Realität: Sitemaps helfen Google, Seiten zu entdecken, erhöhen aber nicht die Gesamtzahl der pro Tag gecrawlten Seiten. Sie helfen zu priorisieren, WELCHE Seiten gecrawlt werden.

Mythos: „Kleine Websites müssen das Crawl-Budget optimieren“

Realität: Wenn Ihre Website unter 1.000 Seiten hat, crawlt Google sie innerhalb weniger Tage vollständig. Verschwenden Sie keine Zeit mit Optimierung.

Schnellreferenz

Crawl-Budget-Verschwender:

Doppelte Inhalte
Weiterleitungsketten
Soft 404s
URL-Parameter (Filter, Sortierungen, Tracking)
Langsame Server-Antwort
Defekte Links

Crawl-Budget-Optimierungen:

XML-Sitemap einreichen
Robots.txt nutzen, um minderwertige Seiten zu blockieren
Crawl-Fehler beheben (500er-Fehler, Weiterleitungen)
Servergeschwindigkeit verbessern
URL-Parameter in der Search Console verwalten
Interne Links zu wichtigen Seiten ergänzen

Was Surmado prüft

Site Audit sucht nach:

Crawl-Fehlern (500, 404, Weiterleitungsketten)
Doppelten Inhalten, die Crawl-Budget verschwenden
URL-Parametern, die unendliche Räume erzeugen
Langsamen Server-Antwortzeiten
Verwaisten Seiten ohne interne Verlinkung

→ Verwandt: Robots.txt Essentials | XML Sitemaps Explained | Server Response Codes

Nächste Schritte

Site Audit ausprobieren oder Bericht erstellen lassen (50 USD), um die Crawl-Effizienz zu optimieren | Anmelden

Alle Site Audit-Funktionen ansehen →

TLDR

Wie das Crawl-Budget funktioniert

Wer muss sich um das Crawl-Budget kümmern?

Sie SOLLTEN optimieren, wenn:

Sie müssen sich wahrscheinlich KEINE Sorgen machen, wenn:

Was Crawl-Budget verschwendet

1. Doppelte Inhalte

2. Minderwertige oder dünne Seiten

3. Soft 404s (falsche 404-Fehler)

4. Weiterleitungsketten

5. Unendliche Räume (Facettennavigation)

6. Defekte Links (404-Fehler)

7. Verwaiste Seiten

Wie Sie das Crawl-Budget optimieren

1. XML-Sitemap einreichen

2. Crawl-Fehler beheben

3. Seitengeschwindigkeit verbessern

4. Robots.txt strategisch einsetzen

5. URL-Parameter verwalten

6. Inhalte regelmäßig aktualisieren

7. Interne Verlinkung

8. Crawl-Rate überwachen und anpassen

Ihr Crawl-Budget prüfen

Google Search Console

Server-Logs

Fallstudie: E-Commerce-Website

Häufige Mythen

Mythos: „Mehr Seiten = besseres SEO“

Mythos: „Ich kann das Crawl-Budget durch eine Anfrage erhöhen“

Mythos: „XML-Sitemaps erhöhen das Crawl-Budget“

Mythos: „Kleine Websites müssen das Crawl-Budget optimieren“

Schnellreferenz

Was Surmado prüft

Nächste Schritte

Bauen wir Ihre Website neu auf

Weiterlesen

Der 15-minütige Pre-Launch-Website-QA-Check, der unseren Produktlaunch gerettet hat

Ihr Google Lighthouse Score lügt: 5 kritische Fehler, die er übersah

Was Sie nach Ihrem Site Audit zuerst beheben sollten