Définition rapide : le budget de crawl correspond au nombre de pages que Google va explorer sur votre site dans un laps de temps donné (généralement par jour). Si votre site compte 10 000 pages mais que Google n’en crawle que 100 par jour, il faudra 100 jours pour tout indexer, en supposant que vous n’ajoutez pas de nouvelles pages entre-temps.
Idée clé : les petits sites (moins de 1 000 pages) n’ont que rarement à se soucier du budget de crawl. Les grands sites, les boutiques e-commerce et les sites d’actualités doivent l’optimiser.
TLDR
Le budget de crawl, c’est le nombre de pages que Google va explorer sur votre site par jour. Les petits sites de moins de 1 000 pages n’ont pas à s’en soucier. Google les crawle intégralement en quelques jours. Les grands sites gaspillent leur budget en contenu dupliqué, en chaînes de redirection, en liens cassés et en combinaisons de filtres infinies. Un site e-commerce a bloqué les pages de filtres à faible valeur et est passé de 500 produits crawlés par jour à 2 000, réduisant l’indexation des nouveaux produits de plusieurs mois à une semaine. Optimisez en soumettant un sitemap XML, en bloquant les pages à faible valeur et en améliorant la vitesse du serveur.
Comment fonctionne le budget de crawl
Le crawler de Google (Googlebot) dispose de ressources limitées. Il décide :
- Combien de pages crawler sur votre site (taux de crawl)
- Quelles pages prioriser (demande de crawl)
Limite du taux de crawl :
- Déterminée par la capacité de votre serveur
- Google ne crawlera pas si vite qu’il fasse planter votre serveur
- Plus élevée pour les sites avec des serveurs rapides et un bon hébergement
Demande de crawl :
- À quel point la page est-elle populaire ? (trafic, backlinks)
- À quelle fréquence est-elle mise à jour ?
- Est-elle déjà indexée et bien classée ?
Budget de crawl = limite de taux × demande
Qui doit se préoccuper du budget de crawl ?
Vous DEVRIEZ optimiser si :
- Site e-commerce avec plus de 10 000 produits
- Site d’actualités publiant plus de 50 articles par jour
- Site avec des millions de pages (grands annuaires, bases de données)
- Site international avec de nombreuses variantes de langue/pays
- Site avec de nombreux paramètres d’URL (filtres, tris, sessions)
- Site souffrant d’une indexation lente (les nouvelles pages mettent des semaines à apparaître)
Vous n’avez probablement PAS à vous en soucier si :
- Blog de moins de 1 000 pages
- Site de petite entreprise (5 à 50 pages)
- Site portfolio ou plaquette
- Nouveau site avec un contenu limité
Recommandation officielle de Google : les sites de moins de 1 000 URL sont crawlés efficacement sans intervention.
Ce qui gaspille le budget de crawl
1. Contenu dupliqué
Problème :
example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue
Google crawle 4 URL, mais elles renvoient toutes le même contenu.
Correctif :
- Utilisez des balises canoniques pointant vers
/product/blue-widget - Bloquez les paramètres dans robots.txt :
Disallow: /*? - Configurez la gestion des paramètres dans la Google Search Console
2. Pages de faible qualité ou minces
Exemples :
- Pages de catégorie vides
- Pages de recherche « aucun résultat »
- Pages paginées avec un contenu minimal
- Pages satellites générées automatiquement
Correctif :
- Mettez les pages minces en noindex
- Consolidez le contenu
- Utilisez robots.txt pour bloquer le crawl
3. Soft 404 (faux 404)
Problème : des pages qui n’existent pas mais qui renvoient 200 OK au lieu de 404 Not Found.
Exemple :
GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"
Google les crawle en pensant qu’il s’agit de vraies pages, ce qui gaspille le budget.
Correctif : renvoyez de vrais codes de statut 404 pour les pages manquantes.
4. Chaînes de redirection
Problème :
Page A → 301 → Page B → 301 → Page C → 301 → Page D
Google doit crawler 4 URL pour atteindre la destination finale.
Correctif : redirigez directement :
Page A → 301 → Page D
Page B → 301 → Page D
Page C → 301 → Page D
5. Espaces infinis (navigation à facettes)
Problème : des filtres e-commerce créant des millions de combinaisons :
/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...
Correctif :
- Utilisez
noindexsur les pages filtrées - Implémentez
rel="canonical"vers la catégorie principale - Bloquez les paramètres de filtre dans robots.txt
- Utilisez des filtres AJAX (qui ne changent pas l’URL)
6. Liens cassés (404)
Problème : des liens internes pointant vers des pages inexistantes.
Pourquoi cela gaspille du budget : Google crawle le 404, n’obtient rien d’utile, mais cela compte quand même dans votre budget.
Correctif :
- Lancez régulièrement des audits de liens cassés (Screaming Frog, Ahrefs)
- Corrigez les 404 internes (mettez à jour les liens ou redirigez)
7. Pages orphelines
Problème : des pages sans aucun lien interne pointant vers elles.
Pourquoi cela compte : si Google ne peut pas trouver la page via votre navigation, il ne la crawlera peut-être jamais (sauf si elle a des backlinks externes).
Correctif :
- Ajoutez les pages à votre sitemap
- Liez-y depuis des pages pertinentes
- Repérez les orphelines avec des outils de crawl
Comment optimiser le budget de crawl
1. Soumettre un sitemap XML
Pourquoi ça aide : indique à Google exactement quelles pages existent et à quelle fréquence elles changent.
Comment faire :
- Générez le sitemap (la plupart des CMS le font automatiquement)
- Soumettez-le via la Google Search Console
- Maintenez-le à jour (retirez les pages supprimées, ajoutez les nouvelles)
Priorités du sitemap :
<url>
<loc>https://example.com/important-page</loc>
<priority>1.0</priority>
<changefreq>daily</changefreq>
</url>
Note : priority et changefreq sont des indications, pas des ordres. Google peut les ignorer.
2. Corriger les erreurs de crawl
Vérifiez la Google Search Console :
- Couverture → Erreurs
- Cherchez les erreurs serveur (500, 503)
- Corrigez les redirections cassées
- Résolvez les problèmes DNS
Erreurs courantes :
Server error (5xx)Redirect errorSubmitted URL not found (404)
3. Améliorer la vitesse du site
Pourquoi ça compte : des serveurs plus rapides = Google peut crawler plus de pages dans le même temps.
Optimisations :
- Améliorez l’hébergement (mutualisé → VPS → dédié)
- Activez la compression gzip
- Optimisez les requêtes en base de données
- Utilisez un CDN pour les ressources statiques
- Réduisez le temps de réponse du serveur (visez moins de 200 ms)
Vérifier la vitesse :
- Google Search Console → Paramètres → Statistiques de crawl
- Affiche le temps de réponse moyen, les requêtes de crawl par jour
4. Utiliser robots.txt de manière stratégique
Bloquer les pages à faible valeur :
User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/
Autoriser les pages à forte valeur :
Allow: /products/
Allow: /blog/
5. Gérer les paramètres d’URL
Google Search Console → Paramètres → Paramètres d’URL :
- Tris (price-low-high) : dites à Google d’ignorer
- Filtres (color=red) : URL représentative
- Pagination (page=2) : laissez Googlebot décider
- Suivi (utm_source) : dites à Google d’ignorer
Exemple de configuration :
Parameter: color
Effect: No URLs
Googlebot: No URLs (parameter doesn't change page content significantly)
6. Mettre à jour le contenu régulièrement
Pourquoi : Google priorise le crawl des pages qui changent fréquemment.
Stratégie :
- Rafraîchissez les anciens articles de blog (ajoutez des infos, mettez à jour les dates)
- Gardez les descriptions de produits à jour
- Retirez le contenu saisonnier obsolète
- Publiez du nouveau contenu régulièrement
Preuve que Google crawle :
- Google Search Console → Paramètres → Statistiques de crawl
- Vérifiez « Total des requêtes de crawl » dans le temps
7. Maillage interne
Pourquoi ça aide : Google découvre les pages en suivant les liens. Plus de liens internes = découverte plus facile.
Bonnes pratiques :
- Liez les nouvelles pages depuis des pages à forte autorité (page d’accueil, articles populaires)
- Utilisez des ancres descriptives
- N’enterrez pas les pages importantes à 5 clics ou plus de profondeur
- Créez des pages pivots qui lient vers du contenu connexe
8. Surveiller et ajuster le taux de crawl
Google Search Console → Paramètres → Taux de crawl :
- Affiche le taux de crawl actuel (requêtes par jour)
- Vous ne pouvez pas l’augmenter, seulement le réduire (si Google surcharge votre serveur)
Si le taux de crawl est trop bas :
- Améliorez la vitesse du serveur
- Corrigez les erreurs de crawl
- Ajoutez des liens internes vers les pages importantes
- Mettez à jour le contenu plus fréquemment
Vérifier votre budget de crawl
Google Search Console
Paramètres → Statistiques de crawl :
- Total des requêtes de crawl : pages crawlées par jour
- Volume total téléchargé : données transférées
- Temps de réponse moyen : vitesse du serveur
- Requêtes de crawl par statut : 200, 404, 301, etc.
À quoi ressemblent de bonnes statistiques :
- Requêtes de crawl en hausse dans le temps (si vous ajoutez du contenu)
- La plupart des requêtes renvoient
200 OK - Peu d’erreurs
404et500 - Temps de réponse moyen sous 500 ms
Signaux d’alerte :
- Requêtes de crawl en baisse (Google se désintéresse)
- Beaucoup d’erreurs
500(problèmes serveur) - Temps de réponse lents (> 1 seconde)
Logs serveur
Avancé : analysez les logs serveur pour voir exactement ce que Googlebot crawle.
Outils :
- Screaming Frog Log File Analyzer
- Splunk
- Scripts maison (grep/awk)
Quoi rechercher :
- Quelles pages Google crawle le plus
- Pages que Google ne crawle jamais (orphelines)
- Fréquence de crawl par section
Étude de cas : site e-commerce
Problème :
- 50 000 pages produits
- Google crawle 500 pages par jour
- Les nouveaux produits mettent plus de 3 mois à être indexés
Investigation :
- 70 % du budget de crawl gaspillé sur les pages de filtres (
/shoes?color=red&size=10...) - 15 % gaspillé sur les identifiants de session (
/product?session=abc123) - 10 % sur des images cassées et fichiers CSS
Solution :
- Mise en noindex de toutes les pages de combinaisons de filtres
- Blocage des paramètres de session dans robots.txt
- Correction des liens cassés
- Soumission d’un sitemap dédié aux produits
Résultat :
- Budget de crawl reporté sur les vraies pages produits
- Google crawle maintenant plus de 2 000 produits par jour
- Nouveaux produits indexés en moins d’une semaine
Mythes courants
Mythe : « Plus de pages = meilleur SEO »
Réalité : 10 000 pages minces gaspillent le budget de crawl. 100 pages de haute qualité se classent mieux.
Mythe : « Je peux augmenter le budget de crawl en le demandant »
Réalité : Google fixe le budget de crawl en fonction de l’autorité de votre site, de la vitesse du serveur et de la qualité du contenu. Vous ne pouvez pas l’augmenter manuellement.
Mythe : « Les sitemaps XML augmentent le budget de crawl »
Réalité : les sitemaps aident Google à découvrir les pages, mais n’augmentent pas le nombre total de pages crawlées par jour. Ils aident à prioriser QUELLES pages sont crawlées.
Mythe : « Les petits sites doivent optimiser le budget de crawl »
Réalité : si votre site fait moins de 1 000 pages, Google le crawle intégralement en quelques jours. Ne perdez pas de temps à optimiser.
Référence rapide
Gaspilleurs de budget de crawl :
- Contenu dupliqué
- Chaînes de redirection
- Soft 404
- Paramètres d’URL (filtres, tris, suivi)
- Réponse serveur lente
- Liens cassés
Optimisations du budget de crawl :
- Soumettre un sitemap XML
- Utiliser robots.txt pour bloquer les pages à faible valeur
- Corriger les erreurs de crawl (500, redirections)
- Améliorer la vitesse du serveur
- Gérer les paramètres d’URL dans la Search Console
- Ajouter des liens internes vers les pages importantes
Ce que Surmado vérifie
Site Audit recherche :
- Erreurs de crawl (500, 404, chaînes de redirection)
- Contenu dupliqué qui gaspille le budget de crawl
- Paramètres d’URL créant des espaces infinis
- Temps de réponse serveur lents
- Pages orphelines non liées en interne
→ Voir aussi : L’essentiel sur robots.txt | Les sitemaps XML expliqués | Codes de réponse serveur
Étapes suivantes
Essayez Site Audit ou lancez votre rapport (50 $) pour optimiser l’efficacité du crawl | Connectez-vous