Budget de crawl : pourquoi Google n'indexe pas toutes vos pages

Définition rapide : le budget de crawl correspond au nombre de pages que Google va explorer sur votre site dans un laps de temps donné (généralement par jour). Si votre site compte 10 000 pages mais que Google n’en crawle que 100 par jour, il faudra 100 jours pour tout indexer, en supposant que vous n’ajoutez pas de nouvelles pages entre-temps.

Idée clé : les petits sites (moins de 1 000 pages) n’ont que rarement à se soucier du budget de crawl. Les grands sites, les boutiques e-commerce et les sites d’actualités doivent l’optimiser.

TLDR

Le budget de crawl, c’est le nombre de pages que Google va explorer sur votre site par jour. Les petits sites de moins de 1 000 pages n’ont pas à s’en soucier. Google les crawle intégralement en quelques jours. Les grands sites gaspillent leur budget en contenu dupliqué, en chaînes de redirection, en liens cassés et en combinaisons de filtres infinies. Un site e-commerce a bloqué les pages de filtres à faible valeur et est passé de 500 produits crawlés par jour à 2 000, réduisant l’indexation des nouveaux produits de plusieurs mois à une semaine. Optimisez en soumettant un sitemap XML, en bloquant les pages à faible valeur et en améliorant la vitesse du serveur.

Comment fonctionne le budget de crawl

Le crawler de Google (Googlebot) dispose de ressources limitées. Il décide :

Combien de pages crawler sur votre site (taux de crawl)
Quelles pages prioriser (demande de crawl)

Limite du taux de crawl :

Déterminée par la capacité de votre serveur
Google ne crawlera pas si vite qu’il fasse planter votre serveur
Plus élevée pour les sites avec des serveurs rapides et un bon hébergement

Demande de crawl :

À quel point la page est-elle populaire ? (trafic, backlinks)
À quelle fréquence est-elle mise à jour ?
Est-elle déjà indexée et bien classée ?

Budget de crawl = limite de taux × demande

Qui doit se préoccuper du budget de crawl ?

Vous DEVRIEZ optimiser si :

Site e-commerce avec plus de 10 000 produits
Site d’actualités publiant plus de 50 articles par jour
Site avec des millions de pages (grands annuaires, bases de données)
Site international avec de nombreuses variantes de langue/pays
Site avec de nombreux paramètres d’URL (filtres, tris, sessions)
Site souffrant d’une indexation lente (les nouvelles pages mettent des semaines à apparaître)

Vous n’avez probablement PAS à vous en soucier si :

Blog de moins de 1 000 pages
Site de petite entreprise (5 à 50 pages)
Site portfolio ou plaquette
Nouveau site avec un contenu limité

Recommandation officielle de Google : les sites de moins de 1 000 URL sont crawlés efficacement sans intervention.

Ce qui gaspille le budget de crawl

1. Contenu dupliqué

Problème :

example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue

Google crawle 4 URL, mais elles renvoient toutes le même contenu.

Correctif :

Utilisez des balises canoniques pointant vers /product/blue-widget
Bloquez les paramètres dans robots.txt : Disallow: /*?
Configurez la gestion des paramètres dans la Google Search Console

2. Pages de faible qualité ou minces

Exemples :

Pages de catégorie vides
Pages de recherche « aucun résultat »
Pages paginées avec un contenu minimal
Pages satellites générées automatiquement

Correctif :

Mettez les pages minces en noindex
Consolidez le contenu
Utilisez robots.txt pour bloquer le crawl

3. Soft 404 (faux 404)

Problème : des pages qui n’existent pas mais qui renvoient 200 OK au lieu de 404 Not Found.

Exemple :

GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"

Google les crawle en pensant qu’il s’agit de vraies pages, ce qui gaspille le budget.

Correctif : renvoyez de vrais codes de statut 404 pour les pages manquantes.

4. Chaînes de redirection

Problème :

Page A → 301 → Page B → 301 → Page C → 301 → Page D

Google doit crawler 4 URL pour atteindre la destination finale.

Correctif : redirigez directement :

Page A → 301 → Page D
Page B → 301 → Page D
Page C → 301 → Page D

Problème : des filtres e-commerce créant des millions de combinaisons :

/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...

Correctif :

Utilisez noindex sur les pages filtrées
Implémentez rel="canonical" vers la catégorie principale
Bloquez les paramètres de filtre dans robots.txt
Utilisez des filtres AJAX (qui ne changent pas l’URL)

6. Liens cassés (404)

Problème : des liens internes pointant vers des pages inexistantes.

Pourquoi cela gaspille du budget : Google crawle le 404, n’obtient rien d’utile, mais cela compte quand même dans votre budget.

Correctif :

Lancez régulièrement des audits de liens cassés (Screaming Frog, Ahrefs)
Corrigez les 404 internes (mettez à jour les liens ou redirigez)

7. Pages orphelines

Problème : des pages sans aucun lien interne pointant vers elles.

Pourquoi cela compte : si Google ne peut pas trouver la page via votre navigation, il ne la crawlera peut-être jamais (sauf si elle a des backlinks externes).

Correctif :

Ajoutez les pages à votre sitemap
Liez-y depuis des pages pertinentes
Repérez les orphelines avec des outils de crawl

Comment optimiser le budget de crawl

1. Soumettre un sitemap XML

Pourquoi ça aide : indique à Google exactement quelles pages existent et à quelle fréquence elles changent.

Comment faire :

Générez le sitemap (la plupart des CMS le font automatiquement)
Soumettez-le via la Google Search Console
Maintenez-le à jour (retirez les pages supprimées, ajoutez les nouvelles)

Priorités du sitemap :

<url>
  <loc>https://example.com/important-page</loc>
  <priority>1.0</priority>
  <changefreq>daily</changefreq>
</url>

Note : priority et changefreq sont des indications, pas des ordres. Google peut les ignorer.

2. Corriger les erreurs de crawl

Vérifiez la Google Search Console :

Couverture → Erreurs
Cherchez les erreurs serveur (500, 503)
Corrigez les redirections cassées
Résolvez les problèmes DNS

Erreurs courantes :

Server error (5xx)
Redirect error
Submitted URL not found (404)

3. Améliorer la vitesse du site

Pourquoi ça compte : des serveurs plus rapides = Google peut crawler plus de pages dans le même temps.

Optimisations :

Améliorez l’hébergement (mutualisé → VPS → dédié)
Activez la compression gzip
Optimisez les requêtes en base de données
Utilisez un CDN pour les ressources statiques
Réduisez le temps de réponse du serveur (visez moins de 200 ms)

Vérifier la vitesse :

Google Search Console → Paramètres → Statistiques de crawl
Affiche le temps de réponse moyen, les requêtes de crawl par jour

4. Utiliser robots.txt de manière stratégique

Bloquer les pages à faible valeur :

User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/

Autoriser les pages à forte valeur :

Allow: /products/
Allow: /blog/

5. Gérer les paramètres d’URL

Google Search Console → Paramètres → Paramètres d’URL :

Tris (price-low-high) : dites à Google d’ignorer
Filtres (color=red) : URL représentative
Pagination (page=2) : laissez Googlebot décider
Suivi (utm_source) : dites à Google d’ignorer

Exemple de configuration :

Parameter: color
Effect: No URLs
Googlebot: No URLs (parameter doesn't change page content significantly)

6. Mettre à jour le contenu régulièrement

Pourquoi : Google priorise le crawl des pages qui changent fréquemment.

Stratégie :

Rafraîchissez les anciens articles de blog (ajoutez des infos, mettez à jour les dates)
Gardez les descriptions de produits à jour
Retirez le contenu saisonnier obsolète
Publiez du nouveau contenu régulièrement

Preuve que Google crawle :

Google Search Console → Paramètres → Statistiques de crawl
Vérifiez « Total des requêtes de crawl » dans le temps

7. Maillage interne

Pourquoi ça aide : Google découvre les pages en suivant les liens. Plus de liens internes = découverte plus facile.

Bonnes pratiques :

Liez les nouvelles pages depuis des pages à forte autorité (page d’accueil, articles populaires)
Utilisez des ancres descriptives
N’enterrez pas les pages importantes à 5 clics ou plus de profondeur
Créez des pages pivots qui lient vers du contenu connexe

8. Surveiller et ajuster le taux de crawl

Google Search Console → Paramètres → Taux de crawl :

Affiche le taux de crawl actuel (requêtes par jour)
Vous ne pouvez pas l’augmenter, seulement le réduire (si Google surcharge votre serveur)

Si le taux de crawl est trop bas :

Améliorez la vitesse du serveur
Corrigez les erreurs de crawl
Ajoutez des liens internes vers les pages importantes
Mettez à jour le contenu plus fréquemment

Vérifier votre budget de crawl

Google Search Console

Paramètres → Statistiques de crawl :

Total des requêtes de crawl : pages crawlées par jour
Volume total téléchargé : données transférées
Temps de réponse moyen : vitesse du serveur
Requêtes de crawl par statut : 200, 404, 301, etc.

À quoi ressemblent de bonnes statistiques :

Requêtes de crawl en hausse dans le temps (si vous ajoutez du contenu)
La plupart des requêtes renvoient 200 OK
Peu d’erreurs 404 et 500
Temps de réponse moyen sous 500 ms

Signaux d’alerte :

Requêtes de crawl en baisse (Google se désintéresse)
Beaucoup d’erreurs 500 (problèmes serveur)
Temps de réponse lents (> 1 seconde)

Logs serveur

Avancé : analysez les logs serveur pour voir exactement ce que Googlebot crawle.

Outils :

Screaming Frog Log File Analyzer
Splunk
Scripts maison (grep/awk)

Quoi rechercher :

Quelles pages Google crawle le plus
Pages que Google ne crawle jamais (orphelines)
Fréquence de crawl par section

Étude de cas : site e-commerce

Problème :

50 000 pages produits
Google crawle 500 pages par jour
Les nouveaux produits mettent plus de 3 mois à être indexés

Investigation :

70 % du budget de crawl gaspillé sur les pages de filtres (/shoes?color=red&size=10...)
15 % gaspillé sur les identifiants de session (/product?session=abc123)
10 % sur des images cassées et fichiers CSS

Solution :

Mise en noindex de toutes les pages de combinaisons de filtres
Blocage des paramètres de session dans robots.txt
Correction des liens cassés
Soumission d’un sitemap dédié aux produits

Résultat :

Budget de crawl reporté sur les vraies pages produits
Google crawle maintenant plus de 2 000 produits par jour
Nouveaux produits indexés en moins d’une semaine

Mythes courants

Mythe : « Plus de pages = meilleur SEO »

Réalité : 10 000 pages minces gaspillent le budget de crawl. 100 pages de haute qualité se classent mieux.

Mythe : « Je peux augmenter le budget de crawl en le demandant »

Réalité : Google fixe le budget de crawl en fonction de l’autorité de votre site, de la vitesse du serveur et de la qualité du contenu. Vous ne pouvez pas l’augmenter manuellement.

Mythe : « Les sitemaps XML augmentent le budget de crawl »

Réalité : les sitemaps aident Google à découvrir les pages, mais n’augmentent pas le nombre total de pages crawlées par jour. Ils aident à prioriser QUELLES pages sont crawlées.

Mythe : « Les petits sites doivent optimiser le budget de crawl »

Réalité : si votre site fait moins de 1 000 pages, Google le crawle intégralement en quelques jours. Ne perdez pas de temps à optimiser.

Référence rapide

Gaspilleurs de budget de crawl :

Contenu dupliqué
Chaînes de redirection
Soft 404
Paramètres d’URL (filtres, tris, suivi)
Réponse serveur lente
Liens cassés

Optimisations du budget de crawl :

Soumettre un sitemap XML
Utiliser robots.txt pour bloquer les pages à faible valeur
Corriger les erreurs de crawl (500, redirections)
Améliorer la vitesse du serveur
Gérer les paramètres d’URL dans la Search Console
Ajouter des liens internes vers les pages importantes

Ce que Surmado vérifie

Site Audit recherche :

Erreurs de crawl (500, 404, chaînes de redirection)
Contenu dupliqué qui gaspille le budget de crawl
Paramètres d’URL créant des espaces infinis
Temps de réponse serveur lents
Pages orphelines non liées en interne

→ Voir aussi : L’essentiel sur robots.txt | Les sitemaps XML expliqués | Codes de réponse serveur

Étapes suivantes

Essayez Site Audit ou lancez votre rapport (50 $) pour optimiser l’efficacité du crawl | Connectez-vous

Voir toutes les fonctionnalités de Site Audit →

Budget de crawl : pourquoi Google n'indexe pas toutes vos pages

TLDR

Comment fonctionne le budget de crawl

Qui doit se préoccuper du budget de crawl ?

Vous DEVRIEZ optimiser si :

Vous n’avez probablement PAS à vous en soucier si :

Ce qui gaspille le budget de crawl

1. Contenu dupliqué

2. Pages de faible qualité ou minces

3. Soft 404 (faux 404)

4. Chaînes de redirection

5. Espaces infinis (navigation à facettes)

6. Liens cassés (404)

7. Pages orphelines

Comment optimiser le budget de crawl

1. Soumettre un sitemap XML

2. Corriger les erreurs de crawl

3. Améliorer la vitesse du site

4. Utiliser robots.txt de manière stratégique

5. Gérer les paramètres d’URL

6. Mettre à jour le contenu régulièrement

7. Maillage interne

8. Surveiller et ajuster le taux de crawl

Vérifier votre budget de crawl

Google Search Console

Logs serveur

Étude de cas : site e-commerce

Mythes courants

Mythe : « Plus de pages = meilleur SEO »

Mythe : « Je peux augmenter le budget de crawl en le demandant »

Mythe : « Les sitemaps XML augmentent le budget de crawl »

Mythe : « Les petits sites doivent optimiser le budget de crawl »

Référence rapide

Ce que Surmado vérifie

Étapes suivantes

Reconstruisons votre site web

TLDR

Comment fonctionne le budget de crawl

Qui doit se préoccuper du budget de crawl ?

Vous DEVRIEZ optimiser si :

Vous n’avez probablement PAS à vous en soucier si :

Ce qui gaspille le budget de crawl

1. Contenu dupliqué

2. Pages de faible qualité ou minces

3. Soft 404 (faux 404)

4. Chaînes de redirection

5. Espaces infinis (navigation à facettes)

6. Liens cassés (404)

7. Pages orphelines

Comment optimiser le budget de crawl

1. Soumettre un sitemap XML

2. Corriger les erreurs de crawl

3. Améliorer la vitesse du site

4. Utiliser robots.txt de manière stratégique

5. Gérer les paramètres d’URL

6. Mettre à jour le contenu régulièrement

7. Maillage interne

8. Surveiller et ajuster le taux de crawl

Vérifier votre budget de crawl

Google Search Console

Logs serveur

Étude de cas : site e-commerce

Mythes courants

Mythe : « Plus de pages = meilleur SEO »

Mythe : « Je peux augmenter le budget de crawl en le demandant »

Mythe : « Les sitemaps XML augmentent le budget de crawl »

Mythe : « Les petits sites doivent optimiser le budget de crawl »

Référence rapide

Ce que Surmado vérifie

Étapes suivantes

Reconstruisons votre site web

À lire aussi

Quand engager une agence SEO ou faire ses propres audits

Le contrôle qualité de 15 minutes avant lancement qui a sauvé le lancement de notre produit

Votre score Google Lighthouse ment : 5 erreurs critiques manquées