Definizione rapida: il crawl budget è il numero di pagine che Google scansiona sul tuo sito entro un determinato periodo (di solito al giorno). Se il tuo sito ha 10.000 pagine ma Google ne scansiona solo 100 al giorno, ci vorranno 100 giorni per indicizzare tutto, presumendo che nel frattempo tu non aggiunga nuove pagine.
Insight chiave: i siti piccoli (sotto le 1.000 pagine) raramente devono preoccuparsi del crawl budget. I siti grandi, gli e-commerce e i siti di notizie dovrebbero ottimizzarlo.
TLDR
Il crawl budget indica quante pagine Google scansiona sul tuo sito al giorno. I siti piccoli sotto le 1.000 pagine non devono preoccuparsi. Google li scansiona completamente nel giro di pochi giorni. I siti grandi sprecano budget su contenuti duplicati, catene di redirect, link rotti e combinazioni infinite di filtri. Un sito e-commerce ha bloccato le pagine di filtro a basso valore ed è passato da 500 prodotti scansionati al giorno a 2.000, riducendo l’indicizzazione dei nuovi prodotti da mesi a una settimana. Ottimizza inviando una sitemap XML, bloccando le pagine a basso valore e migliorando la velocità del server.
Come funziona il crawl budget
Il crawler di Google (Googlebot) ha risorse limitate. Decide:
- Quante pagine scansionare sul tuo sito (crawl rate)
- Quali pagine dare in priorità (crawl demand)
Limite di crawl rate:
- Determinato dalla capacità del tuo server
- Google non scansiona così velocemente da mandare in crash il server
- Più alto per i siti con server veloci e buon hosting
Crawl demand:
- Quanto è popolare la pagina? (traffico, backlink)
- Con quale frequenza si aggiorna?
- È già indicizzata e si posiziona?
Crawl budget = Limite di rate × Demand
Chi deve preoccuparsi del crawl budget?
DOVRESTI ottimizzare se:
- Sito e-commerce con oltre 10.000 prodotti
- Sito di notizie che pubblica oltre 50 articoli al giorno
- Sito con milioni di pagine (grandi directory, database)
- Sito internazionale con molte varianti di lingua/paese
- Sito con molti parametri URL (filtri, ordinamenti, sessioni)
- Sito che soffre di indicizzazione lenta (le nuove pagine impiegano settimane a comparire)
Probabilmente NON devi preoccuparti se:
- Blog con meno di 1.000 pagine
- Sito di piccola impresa (5-50 pagine)
- Portfolio o sito vetrina
- Sito nuovo con contenuti limitati
Indicazioni di Google stesso: i siti sotto le 1.000 URL vengono scansionati efficientemente senza intervento.
Cosa spreca il crawl budget
1. Contenuti duplicati
Problema:
example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue
Google scansiona 4 URL, ma sono tutti lo stesso contenuto.
Soluzione:
- Usa tag canonical che puntano a
/product/blue-widget - Blocca i parametri in robots.txt:
Disallow: /*? - Imposta la gestione dei parametri in Google Search Console
2. Pagine di bassa qualità o thin
Esempi:
- Pagine di categoria vuote
- Pagine di ricerca “Nessun risultato trovato”
- Pagine paginate con contenuti minimi
- Doorway page generate automaticamente
Soluzione:
- Metti in noindex le thin page
- Consolida i contenuti
- Usa robots.txt per bloccare la scansione
3. Soft 404 (404 finti)
Problema: pagine che non esistono ma restituiscono 200 OK invece di 404 Not Found.
Esempio:
GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"
Google scansiona queste pagine pensando che siano reali, sprecando budget.
Soluzione: restituisci codici di stato 404 corretti per le pagine mancanti.
4. Catene di redirect
Problema:
Pagina A → 301 → Pagina B → 301 → Pagina C → 301 → Pagina D
Google deve scansionare 4 URL per raggiungere la destinazione finale.
Soluzione: reindirizza direttamente:
Pagina A → 301 → Pagina D
Pagina B → 301 → Pagina D
Pagina C → 301 → Pagina D
5. Spazi infiniti (navigazione a faccette)
Problema: filtri e-commerce che creano milioni di combinazioni:
/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...
Soluzione:
- Usa
noindexsulle pagine filtrate - Implementa
rel="canonical"verso la categoria principale - Blocca i parametri di filtro in robots.txt
- Usa filtri AJAX (che non cambiano l’URL)
6. Link rotti (404)
Problema: link interni che puntano a pagine inesistenti.
Perché spreca budget: Google scansiona il 404, non ottiene nulla di utile, ma viene comunque conteggiato sul tuo budget.
Soluzione:
- Esegui audit regolari dei link rotti (Screaming Frog, Ahrefs)
- Correggi i 404 interni (aggiorna i link o reindirizza)
7. Pagine orfane
Problema: pagine senza alcun link interno che puntano a esse.
Perché conta: se Google non riesce a trovare la pagina attraverso la navigazione del tuo sito, potrebbe non scansionarla mai (a meno che non abbia backlink esterni).
Soluzione:
- Aggiungi le pagine alla tua sitemap
- Linkale dalle pagine pertinenti
- Cerca le pagine orfane con strumenti di crawling
Come ottimizzare il crawl budget
1. Invia una sitemap XML
Perché aiuta: dice a Google esattamente quali pagine esistono e con quale frequenza cambiano.
Come:
- Genera la sitemap (la maggior parte dei CMS lo fa automaticamente)
- Invia tramite Google Search Console
- Tienila aggiornata (rimuovi le pagine eliminate, aggiungi le nuove)
Priorità della sitemap:
<url>
<loc>https://example.com/important-page</loc>
<priority>1.0</priority>
<changefreq>daily</changefreq>
</url>
Nota: priority e changefreq sono suggerimenti, non comandi. Google può ignorarli.
2. Correggi gli errori di crawl
Controlla Google Search Console:
- Copertura → Errori
- Cerca errori del server (500, 503)
- Correggi i redirect rotti
- Risolvi i problemi DNS
Errori comuni:
Server error (5xx)Redirect errorSubmitted URL not found (404)
3. Migliora la velocità del sito
Perché conta: server più veloci = Google può scansionare più pagine nello stesso tempo.
Ottimizzazioni:
- Aggiorna l’hosting (shared → VPS → dedicato)
- Abilita la compressione gzip
- Ottimizza le query del database
- Usa una CDN per gli asset statici
- Riduci il tempo di risposta del server (punta a meno di 200ms)
Controlla la velocità:
- Google Search Console → Impostazioni → Statistiche di scansione
- Mostra il tempo medio di risposta, le richieste di crawl al giorno
4. Usa robots.txt strategicamente
Blocca le pagine a basso valore:
User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/
Permetti le pagine ad alto valore:
Allow: /products/
Allow: /blog/
5. Gestisci i parametri URL
Google Search Console → Impostazioni → Parametri URL:
- Ordinamenti (price-low-high): dì a Google di ignorarli
- Filtri (color=red): URL rappresentativo
- Paginazione (page=2): lascia decidere a Googlebot
- Tracking (utm_source): dì a Google di ignorarli
Esempio di configurazione:
Parameter: color
Effect: No URLs
Googlebot: No URLs (parameter doesn't change page content significantly)
6. Aggiorna i contenuti regolarmente
Perché: Google dà priorità alla scansione delle pagine che cambiano frequentemente.
Strategia:
- Aggiorna i vecchi post del blog (aggiungi nuove informazioni, aggiorna le date)
- Mantieni aggiornate le descrizioni dei prodotti
- Rimuovi i contenuti stagionali obsoleti
- Pubblica nuovi contenuti in modo costante
Prove che Google sta scansionando:
- Google Search Console → Impostazioni → Statistiche di scansione
- Controlla “Richieste di crawl totali” nel tempo
7. Linking interno
Perché aiuta: Google scopre le pagine seguendo i link. Più link interni = scoperta più facile.
Best practice:
- Linka le nuove pagine da pagine ad alta autorità (homepage, post popolari)
- Usa anchor text descrittivi
- Non seppellire le pagine importanti a 5 click di profondità o più
- Crea pagine hub che linkano a contenuti correlati
8. Monitora e regola il crawl rate
Google Search Console → Impostazioni → Crawl rate:
- Mostra il crawl rate attuale (richieste al giorno)
- Non puoi aumentarlo, solo diminuirlo (se Google sta sovraccaricando il tuo server)
Se il crawl rate è troppo basso:
- Migliora la velocità del server
- Correggi gli errori di crawl
- Aggiungi link interni alle pagine importanti
- Aggiorna i contenuti più frequentemente
Come controllare il tuo crawl budget
Google Search Console
Impostazioni → Statistiche di scansione:
- Richieste di crawl totali: pagine scansionate al giorno
- Dimensione totale di download: dati trasferiti
- Tempo medio di risposta: velocità del server
- Richieste di crawl per stato: 200, 404, 301, ecc.
Come si presentano statistiche buone:
- Richieste di crawl in aumento nel tempo (se aggiungi contenuti)
- La maggior parte delle richieste restituisce
200 OK - Pochi errori
404e500 - Tempo medio di risposta sotto i 500ms
Segnali di allarme:
- Richieste di crawl in calo (Google sta perdendo interesse)
- Molti errori
500(problemi del server) - Tempi di risposta lenti (oltre 1 secondo)
Log del server
Avanzato: analizza i log del server per vedere esattamente cosa scansiona Googlebot.
Strumenti:
- Screaming Frog Log File Analyzer
- Splunk
- Script personalizzati (grep/awk)
Cosa cercare:
- Quali pagine Google scansiona di più
- Pagine che Google non scansiona mai (orfane)
- Frequenza di scansione per sezione
Caso studio: sito e-commerce
Problema:
- 50.000 pagine di prodotto
- Google scansiona 500 pagine al giorno
- I nuovi prodotti impiegano oltre 3 mesi a essere indicizzati
Indagine:
- Il 70% del crawl budget sprecato su pagine di filtro (
/shoes?color=red&size=10...) - Il 15% sprecato su ID di sessione (
/product?session=abc123) - Il 10% su immagini rotte, file CSS
Soluzione:
- Messe in noindex tutte le pagine con combinazioni di filtri
- Bloccati i parametri di sessione in robots.txt
- Corretti i link rotti
- Inviata una sitemap solo dei prodotti
Risultato:
- Crawl budget spostato sulle pagine di prodotto reali
- Google ora scansiona oltre 2.000 prodotti al giorno
- Nuovi prodotti indicizzati entro 1 settimana
Miti comuni
Mito: “Più pagine = SEO migliore”
Realtà: 10.000 thin page sprecano crawl budget. 100 pagine di alta qualità si posizionano meglio.
Mito: “Posso aumentare il crawl budget richiedendolo”
Realtà: Google imposta il crawl budget in base all’autorità del tuo sito, alla velocità del server e alla qualità dei contenuti. Non puoi aumentarlo manualmente.
Mito: “Le sitemap XML aumentano il crawl budget”
Realtà: le sitemap aiutano Google a scoprire le pagine, ma non aumentano il numero totale di pagine scansionate al giorno. Aiutano a dare priorità a QUALI pagine vengono scansionate.
Mito: “I siti piccoli devono ottimizzare il crawl budget”
Realtà: se il tuo sito ha meno di 1.000 pagine, Google lo scansiona completamente nel giro di pochi giorni. Non perdere tempo a ottimizzare.
Riferimento rapido
Cosa spreca crawl budget:
- Contenuti duplicati
- Catene di redirect
- Soft 404
- Parametri URL (filtri, ordinamenti, tracking)
- Risposta del server lenta
- Link rotti
Ottimizzazioni del crawl budget:
- Invia sitemap XML
- Usa robots.txt per bloccare le pagine a basso valore
- Correggi gli errori di crawl (500, redirect)
- Migliora la velocità del server
- Gestisci i parametri URL in Search Console
- Aggiungi link interni alle pagine importanti
Cosa controlla Surmado
Site Audit cerca:
- Errori di crawl (500, 404, catene di redirect)
- Contenuti duplicati che sprecano crawl budget
- Parametri URL che creano spazi infiniti
- Tempi di risposta del server lenti
- Pagine orfane non linkate internamente
→ Correlati: Robots.txt Essentials | XML Sitemaps Explained | Server Response Codes
Prossimi passi
Prova Site Audit o esegui il tuo report (50 $) per ottimizzare l’efficienza di crawl | Accedi