Aller au contenu principal
Connexion

Budget de crawl : pourquoi Google n'indexe pas toutes vos pages

Qu'est-ce que le budget de crawl, pourquoi il compte pour les grands sites et comment l'optimiser. Conseils pour que Google découvre vos pages plus vite.

Définition rapide : le budget de crawl correspond au nombre de pages que Google va explorer sur votre site dans un laps de temps donné (généralement par jour). Si votre site compte 10 000 pages mais que Google n’en crawle que 100 par jour, il faudra 100 jours pour tout indexer, en supposant que vous n’ajoutez pas de nouvelles pages entre-temps.

Idée clé : les petits sites (moins de 1 000 pages) n’ont que rarement à se soucier du budget de crawl. Les grands sites, les boutiques e-commerce et les sites d’actualités doivent l’optimiser.

TLDR

Le budget de crawl, c’est le nombre de pages que Google va explorer sur votre site par jour. Les petits sites de moins de 1 000 pages n’ont pas à s’en soucier. Google les crawle intégralement en quelques jours. Les grands sites gaspillent leur budget en contenu dupliqué, en chaînes de redirection, en liens cassés et en combinaisons de filtres infinies. Un site e-commerce a bloqué les pages de filtres à faible valeur et est passé de 500 produits crawlés par jour à 2 000, réduisant l’indexation des nouveaux produits de plusieurs mois à une semaine. Optimisez en soumettant un sitemap XML, en bloquant les pages à faible valeur et en améliorant la vitesse du serveur.


Comment fonctionne le budget de crawl

Le crawler de Google (Googlebot) dispose de ressources limitées. Il décide :

  1. Combien de pages crawler sur votre site (taux de crawl)
  2. Quelles pages prioriser (demande de crawl)

Limite du taux de crawl :

  • Déterminée par la capacité de votre serveur
  • Google ne crawlera pas si vite qu’il fasse planter votre serveur
  • Plus élevée pour les sites avec des serveurs rapides et un bon hébergement

Demande de crawl :

  • À quel point la page est-elle populaire ? (trafic, backlinks)
  • À quelle fréquence est-elle mise à jour ?
  • Est-elle déjà indexée et bien classée ?

Budget de crawl = limite de taux × demande


Qui doit se préoccuper du budget de crawl ?

Vous DEVRIEZ optimiser si :

  • Site e-commerce avec plus de 10 000 produits
  • Site d’actualités publiant plus de 50 articles par jour
  • Site avec des millions de pages (grands annuaires, bases de données)
  • Site international avec de nombreuses variantes de langue/pays
  • Site avec de nombreux paramètres d’URL (filtres, tris, sessions)
  • Site souffrant d’une indexation lente (les nouvelles pages mettent des semaines à apparaître)

Vous n’avez probablement PAS à vous en soucier si :

  • Blog de moins de 1 000 pages
  • Site de petite entreprise (5 à 50 pages)
  • Site portfolio ou plaquette
  • Nouveau site avec un contenu limité

Recommandation officielle de Google : les sites de moins de 1 000 URL sont crawlés efficacement sans intervention.


Ce qui gaspille le budget de crawl

1. Contenu dupliqué

Problème :

example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue

Google crawle 4 URL, mais elles renvoient toutes le même contenu.

Correctif :

  • Utilisez des balises canoniques pointant vers /product/blue-widget
  • Bloquez les paramètres dans robots.txt : Disallow: /*?
  • Configurez la gestion des paramètres dans la Google Search Console

2. Pages de faible qualité ou minces

Exemples :

  • Pages de catégorie vides
  • Pages de recherche « aucun résultat »
  • Pages paginées avec un contenu minimal
  • Pages satellites générées automatiquement

Correctif :

  • Mettez les pages minces en noindex
  • Consolidez le contenu
  • Utilisez robots.txt pour bloquer le crawl

3. Soft 404 (faux 404)

Problème : des pages qui n’existent pas mais qui renvoient 200 OK au lieu de 404 Not Found.

Exemple :

GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"

Google les crawle en pensant qu’il s’agit de vraies pages, ce qui gaspille le budget.

Correctif : renvoyez de vrais codes de statut 404 pour les pages manquantes.

4. Chaînes de redirection

Problème :

Page A → 301 → Page B → 301 → Page C → 301 → Page D

Google doit crawler 4 URL pour atteindre la destination finale.

Correctif : redirigez directement :

Page A → 301 → Page D
Page B → 301 → Page D
Page C → 301 → Page D

5. Espaces infinis (navigation à facettes)

Problème : des filtres e-commerce créant des millions de combinaisons :

/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...

Correctif :

  • Utilisez noindex sur les pages filtrées
  • Implémentez rel="canonical" vers la catégorie principale
  • Bloquez les paramètres de filtre dans robots.txt
  • Utilisez des filtres AJAX (qui ne changent pas l’URL)

6. Liens cassés (404)

Problème : des liens internes pointant vers des pages inexistantes.

Pourquoi cela gaspille du budget : Google crawle le 404, n’obtient rien d’utile, mais cela compte quand même dans votre budget.

Correctif :

  • Lancez régulièrement des audits de liens cassés (Screaming Frog, Ahrefs)
  • Corrigez les 404 internes (mettez à jour les liens ou redirigez)

7. Pages orphelines

Problème : des pages sans aucun lien interne pointant vers elles.

Pourquoi cela compte : si Google ne peut pas trouver la page via votre navigation, il ne la crawlera peut-être jamais (sauf si elle a des backlinks externes).

Correctif :

  • Ajoutez les pages à votre sitemap
  • Liez-y depuis des pages pertinentes
  • Repérez les orphelines avec des outils de crawl

Comment optimiser le budget de crawl

1. Soumettre un sitemap XML

Pourquoi ça aide : indique à Google exactement quelles pages existent et à quelle fréquence elles changent.

Comment faire :

  • Générez le sitemap (la plupart des CMS le font automatiquement)
  • Soumettez-le via la Google Search Console
  • Maintenez-le à jour (retirez les pages supprimées, ajoutez les nouvelles)

Priorités du sitemap :

<url>
  <loc>https://example.com/important-page</loc>
  <priority>1.0</priority>
  <changefreq>daily</changefreq>
</url>

Note : priority et changefreq sont des indications, pas des ordres. Google peut les ignorer.

2. Corriger les erreurs de crawl

Vérifiez la Google Search Console :

  • Couverture → Erreurs
  • Cherchez les erreurs serveur (500, 503)
  • Corrigez les redirections cassées
  • Résolvez les problèmes DNS

Erreurs courantes :

  • Server error (5xx)
  • Redirect error
  • Submitted URL not found (404)

3. Améliorer la vitesse du site

Pourquoi ça compte : des serveurs plus rapides = Google peut crawler plus de pages dans le même temps.

Optimisations :

  • Améliorez l’hébergement (mutualisé → VPS → dédié)
  • Activez la compression gzip
  • Optimisez les requêtes en base de données
  • Utilisez un CDN pour les ressources statiques
  • Réduisez le temps de réponse du serveur (visez moins de 200 ms)

Vérifier la vitesse :

  • Google Search Console → Paramètres → Statistiques de crawl
  • Affiche le temps de réponse moyen, les requêtes de crawl par jour

4. Utiliser robots.txt de manière stratégique

Bloquer les pages à faible valeur :

User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/

Autoriser les pages à forte valeur :

Allow: /products/
Allow: /blog/

5. Gérer les paramètres d’URL

Google Search Console → Paramètres → Paramètres d’URL :

  • Tris (price-low-high) : dites à Google d’ignorer
  • Filtres (color=red) : URL représentative
  • Pagination (page=2) : laissez Googlebot décider
  • Suivi (utm_source) : dites à Google d’ignorer

Exemple de configuration :

Parameter: color
Effect: No URLs
Googlebot: No URLs (parameter doesn't change page content significantly)

6. Mettre à jour le contenu régulièrement

Pourquoi : Google priorise le crawl des pages qui changent fréquemment.

Stratégie :

  • Rafraîchissez les anciens articles de blog (ajoutez des infos, mettez à jour les dates)
  • Gardez les descriptions de produits à jour
  • Retirez le contenu saisonnier obsolète
  • Publiez du nouveau contenu régulièrement

Preuve que Google crawle :

  • Google Search Console → Paramètres → Statistiques de crawl
  • Vérifiez « Total des requêtes de crawl » dans le temps

7. Maillage interne

Pourquoi ça aide : Google découvre les pages en suivant les liens. Plus de liens internes = découverte plus facile.

Bonnes pratiques :

  • Liez les nouvelles pages depuis des pages à forte autorité (page d’accueil, articles populaires)
  • Utilisez des ancres descriptives
  • N’enterrez pas les pages importantes à 5 clics ou plus de profondeur
  • Créez des pages pivots qui lient vers du contenu connexe

8. Surveiller et ajuster le taux de crawl

Google Search Console → Paramètres → Taux de crawl :

  • Affiche le taux de crawl actuel (requêtes par jour)
  • Vous ne pouvez pas l’augmenter, seulement le réduire (si Google surcharge votre serveur)

Si le taux de crawl est trop bas :

  • Améliorez la vitesse du serveur
  • Corrigez les erreurs de crawl
  • Ajoutez des liens internes vers les pages importantes
  • Mettez à jour le contenu plus fréquemment

Vérifier votre budget de crawl

Google Search Console

Paramètres → Statistiques de crawl :

  • Total des requêtes de crawl : pages crawlées par jour
  • Volume total téléchargé : données transférées
  • Temps de réponse moyen : vitesse du serveur
  • Requêtes de crawl par statut : 200, 404, 301, etc.

À quoi ressemblent de bonnes statistiques :

  • Requêtes de crawl en hausse dans le temps (si vous ajoutez du contenu)
  • La plupart des requêtes renvoient 200 OK
  • Peu d’erreurs 404 et 500
  • Temps de réponse moyen sous 500 ms

Signaux d’alerte :

  • Requêtes de crawl en baisse (Google se désintéresse)
  • Beaucoup d’erreurs 500 (problèmes serveur)
  • Temps de réponse lents (> 1 seconde)

Logs serveur

Avancé : analysez les logs serveur pour voir exactement ce que Googlebot crawle.

Outils :

  • Screaming Frog Log File Analyzer
  • Splunk
  • Scripts maison (grep/awk)

Quoi rechercher :

  • Quelles pages Google crawle le plus
  • Pages que Google ne crawle jamais (orphelines)
  • Fréquence de crawl par section

Étude de cas : site e-commerce

Problème :

  • 50 000 pages produits
  • Google crawle 500 pages par jour
  • Les nouveaux produits mettent plus de 3 mois à être indexés

Investigation :

  • 70 % du budget de crawl gaspillé sur les pages de filtres (/shoes?color=red&size=10...)
  • 15 % gaspillé sur les identifiants de session (/product?session=abc123)
  • 10 % sur des images cassées et fichiers CSS

Solution :

  1. Mise en noindex de toutes les pages de combinaisons de filtres
  2. Blocage des paramètres de session dans robots.txt
  3. Correction des liens cassés
  4. Soumission d’un sitemap dédié aux produits

Résultat :

  • Budget de crawl reporté sur les vraies pages produits
  • Google crawle maintenant plus de 2 000 produits par jour
  • Nouveaux produits indexés en moins d’une semaine

Mythes courants

Mythe : « Plus de pages = meilleur SEO »

Réalité : 10 000 pages minces gaspillent le budget de crawl. 100 pages de haute qualité se classent mieux.

Mythe : « Je peux augmenter le budget de crawl en le demandant »

Réalité : Google fixe le budget de crawl en fonction de l’autorité de votre site, de la vitesse du serveur et de la qualité du contenu. Vous ne pouvez pas l’augmenter manuellement.

Mythe : « Les sitemaps XML augmentent le budget de crawl »

Réalité : les sitemaps aident Google à découvrir les pages, mais n’augmentent pas le nombre total de pages crawlées par jour. Ils aident à prioriser QUELLES pages sont crawlées.

Mythe : « Les petits sites doivent optimiser le budget de crawl »

Réalité : si votre site fait moins de 1 000 pages, Google le crawle intégralement en quelques jours. Ne perdez pas de temps à optimiser.


Référence rapide

Gaspilleurs de budget de crawl :

  • Contenu dupliqué
  • Chaînes de redirection
  • Soft 404
  • Paramètres d’URL (filtres, tris, suivi)
  • Réponse serveur lente
  • Liens cassés

Optimisations du budget de crawl :

  • Soumettre un sitemap XML
  • Utiliser robots.txt pour bloquer les pages à faible valeur
  • Corriger les erreurs de crawl (500, redirections)
  • Améliorer la vitesse du serveur
  • Gérer les paramètres d’URL dans la Search Console
  • Ajouter des liens internes vers les pages importantes

Ce que Surmado vérifie

Site Audit recherche :

  • Erreurs de crawl (500, 404, chaînes de redirection)
  • Contenu dupliqué qui gaspille le budget de crawl
  • Paramètres d’URL créant des espaces infinis
  • Temps de réponse serveur lents
  • Pages orphelines non liées en interne

Voir aussi : L’essentiel sur robots.txt | Les sitemaps XML expliqués | Codes de réponse serveur

Étapes suivantes

Essayez Site Audit ou lancez votre rapport (50 $) pour optimiser l’efficacité du crawl | Connectez-vous

Voir toutes les fonctionnalités de Site Audit →

Prêt à passer à l’action ?

Scout analyse votre marque en ~15 minutes.