Crawl Budget: perché Google non indicizza tutte le tue pagine

Definizione rapida: il crawl budget è il numero di pagine che Google scansiona sul tuo sito entro un determinato periodo (di solito al giorno). Se il tuo sito ha 10.000 pagine ma Google ne scansiona solo 100 al giorno, ci vorranno 100 giorni per indicizzare tutto, presumendo che nel frattempo tu non aggiunga nuove pagine.

Insight chiave: i siti piccoli (sotto le 1.000 pagine) raramente devono preoccuparsi del crawl budget. I siti grandi, gli e-commerce e i siti di notizie dovrebbero ottimizzarlo.

TLDR

Il crawl budget indica quante pagine Google scansiona sul tuo sito al giorno. I siti piccoli sotto le 1.000 pagine non devono preoccuparsi. Google li scansiona completamente nel giro di pochi giorni. I siti grandi sprecano budget su contenuti duplicati, catene di redirect, link rotti e combinazioni infinite di filtri. Un sito e-commerce ha bloccato le pagine di filtro a basso valore ed è passato da 500 prodotti scansionati al giorno a 2.000, riducendo l’indicizzazione dei nuovi prodotti da mesi a una settimana. Ottimizza inviando una sitemap XML, bloccando le pagine a basso valore e migliorando la velocità del server.

Come funziona il crawl budget

Il crawler di Google (Googlebot) ha risorse limitate. Decide:

Quante pagine scansionare sul tuo sito (crawl rate)
Quali pagine dare in priorità (crawl demand)

Limite di crawl rate:

Determinato dalla capacità del tuo server
Google non scansiona così velocemente da mandare in crash il server
Più alto per i siti con server veloci e buon hosting

Crawl demand:

Quanto è popolare la pagina? (traffico, backlink)
Con quale frequenza si aggiorna?
È già indicizzata e si posiziona?

Crawl budget = Limite di rate × Demand

Chi deve preoccuparsi del crawl budget?

DOVRESTI ottimizzare se:

Sito e-commerce con oltre 10.000 prodotti
Sito di notizie che pubblica oltre 50 articoli al giorno
Sito con milioni di pagine (grandi directory, database)
Sito internazionale con molte varianti di lingua/paese
Sito con molti parametri URL (filtri, ordinamenti, sessioni)
Sito che soffre di indicizzazione lenta (le nuove pagine impiegano settimane a comparire)

Probabilmente NON devi preoccuparti se:

Blog con meno di 1.000 pagine
Sito di piccola impresa (5-50 pagine)
Portfolio o sito vetrina
Sito nuovo con contenuti limitati

Indicazioni di Google stesso: i siti sotto le 1.000 URL vengono scansionati efficientemente senza intervento.

Cosa spreca il crawl budget

1. Contenuti duplicati

Problema:

example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue

Google scansiona 4 URL, ma sono tutti lo stesso contenuto.

Soluzione:

Usa tag canonical che puntano a /product/blue-widget
Blocca i parametri in robots.txt: Disallow: /*?
Imposta la gestione dei parametri in Google Search Console

2. Pagine di bassa qualità o thin

Esempi:

Pagine di categoria vuote
Pagine di ricerca “Nessun risultato trovato”
Pagine paginate con contenuti minimi
Doorway page generate automaticamente

Soluzione:

Metti in noindex le thin page
Consolida i contenuti
Usa robots.txt per bloccare la scansione

3. Soft 404 (404 finti)

Problema: pagine che non esistono ma restituiscono 200 OK invece di 404 Not Found.

Esempio:

GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"

Google scansiona queste pagine pensando che siano reali, sprecando budget.

Soluzione: restituisci codici di stato 404 corretti per le pagine mancanti.

4. Catene di redirect

Problema:

Pagina A → 301 → Pagina B → 301 → Pagina C → 301 → Pagina D

Google deve scansionare 4 URL per raggiungere la destinazione finale.

Soluzione: reindirizza direttamente:

Pagina A → 301 → Pagina D
Pagina B → 301 → Pagina D
Pagina C → 301 → Pagina D

5. Spazi infiniti (navigazione a faccette)

Problema: filtri e-commerce che creano milioni di combinazioni:

/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...

Soluzione:

Usa noindex sulle pagine filtrate
Implementa rel="canonical" verso la categoria principale
Blocca i parametri di filtro in robots.txt
Usa filtri AJAX (che non cambiano l’URL)

6. Link rotti (404)

Problema: link interni che puntano a pagine inesistenti.

Perché spreca budget: Google scansiona il 404, non ottiene nulla di utile, ma viene comunque conteggiato sul tuo budget.

Soluzione:

Esegui audit regolari dei link rotti (Screaming Frog, Ahrefs)
Correggi i 404 interni (aggiorna i link o reindirizza)

7. Pagine orfane

Problema: pagine senza alcun link interno che puntano a esse.

Perché conta: se Google non riesce a trovare la pagina attraverso la navigazione del tuo sito, potrebbe non scansionarla mai (a meno che non abbia backlink esterni).

Soluzione:

Aggiungi le pagine alla tua sitemap
Linkale dalle pagine pertinenti
Cerca le pagine orfane con strumenti di crawling

Come ottimizzare il crawl budget

1. Invia una sitemap XML

Perché aiuta: dice a Google esattamente quali pagine esistono e con quale frequenza cambiano.

Come:

Genera la sitemap (la maggior parte dei CMS lo fa automaticamente)
Invia tramite Google Search Console
Tienila aggiornata (rimuovi le pagine eliminate, aggiungi le nuove)

Priorità della sitemap:

<url>
  <loc>https://example.com/important-page</loc>
  <priority>1.0</priority>
  <changefreq>daily</changefreq>
</url>

Nota: priority e changefreq sono suggerimenti, non comandi. Google può ignorarli.

2. Correggi gli errori di crawl

Controlla Google Search Console:

Copertura → Errori
Cerca errori del server (500, 503)
Correggi i redirect rotti
Risolvi i problemi DNS

Errori comuni:

Server error (5xx)
Redirect error
Submitted URL not found (404)

3. Migliora la velocità del sito

Perché conta: server più veloci = Google può scansionare più pagine nello stesso tempo.

Ottimizzazioni:

Aggiorna l’hosting (shared → VPS → dedicato)
Abilita la compressione gzip
Ottimizza le query del database
Usa una CDN per gli asset statici
Riduci il tempo di risposta del server (punta a meno di 200ms)

Controlla la velocità:

Google Search Console → Impostazioni → Statistiche di scansione
Mostra il tempo medio di risposta, le richieste di crawl al giorno

4. Usa robots.txt strategicamente

Blocca le pagine a basso valore:

User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/

Permetti le pagine ad alto valore:

Allow: /products/
Allow: /blog/

5. Gestisci i parametri URL

Google Search Console → Impostazioni → Parametri URL:

Ordinamenti (price-low-high): dì a Google di ignorarli
Filtri (color=red): URL rappresentativo
Paginazione (page=2): lascia decidere a Googlebot
Tracking (utm_source): dì a Google di ignorarli

Esempio di configurazione:

Parameter: color
Effect: No URLs
Googlebot: No URLs (parameter doesn't change page content significantly)

6. Aggiorna i contenuti regolarmente

Perché: Google dà priorità alla scansione delle pagine che cambiano frequentemente.

Strategia:

Aggiorna i vecchi post del blog (aggiungi nuove informazioni, aggiorna le date)
Mantieni aggiornate le descrizioni dei prodotti
Rimuovi i contenuti stagionali obsoleti
Pubblica nuovi contenuti in modo costante

Prove che Google sta scansionando:

Google Search Console → Impostazioni → Statistiche di scansione
Controlla “Richieste di crawl totali” nel tempo

7. Linking interno

Perché aiuta: Google scopre le pagine seguendo i link. Più link interni = scoperta più facile.

Best practice:

Linka le nuove pagine da pagine ad alta autorità (homepage, post popolari)
Usa anchor text descrittivi
Non seppellire le pagine importanti a 5 click di profondità o più
Crea pagine hub che linkano a contenuti correlati

8. Monitora e regola il crawl rate

Google Search Console → Impostazioni → Crawl rate:

Mostra il crawl rate attuale (richieste al giorno)
Non puoi aumentarlo, solo diminuirlo (se Google sta sovraccaricando il tuo server)

Se il crawl rate è troppo basso:

Migliora la velocità del server
Correggi gli errori di crawl
Aggiungi link interni alle pagine importanti
Aggiorna i contenuti più frequentemente

Come controllare il tuo crawl budget

Google Search Console

Impostazioni → Statistiche di scansione:

Richieste di crawl totali: pagine scansionate al giorno
Dimensione totale di download: dati trasferiti
Tempo medio di risposta: velocità del server
Richieste di crawl per stato: 200, 404, 301, ecc.

Come si presentano statistiche buone:

Richieste di crawl in aumento nel tempo (se aggiungi contenuti)
La maggior parte delle richieste restituisce 200 OK
Pochi errori 404 e 500
Tempo medio di risposta sotto i 500ms

Segnali di allarme:

Richieste di crawl in calo (Google sta perdendo interesse)
Molti errori 500 (problemi del server)
Tempi di risposta lenti (oltre 1 secondo)

Log del server

Avanzato: analizza i log del server per vedere esattamente cosa scansiona Googlebot.

Strumenti:

Screaming Frog Log File Analyzer
Splunk
Script personalizzati (grep/awk)

Cosa cercare:

Quali pagine Google scansiona di più
Pagine che Google non scansiona mai (orfane)
Frequenza di scansione per sezione

Caso studio: sito e-commerce

Problema:

50.000 pagine di prodotto
Google scansiona 500 pagine al giorno
I nuovi prodotti impiegano oltre 3 mesi a essere indicizzati

Indagine:

Il 70% del crawl budget sprecato su pagine di filtro (/shoes?color=red&size=10...)
Il 15% sprecato su ID di sessione (/product?session=abc123)
Il 10% su immagini rotte, file CSS

Soluzione:

Messe in noindex tutte le pagine con combinazioni di filtri
Bloccati i parametri di sessione in robots.txt
Corretti i link rotti
Inviata una sitemap solo dei prodotti

Risultato:

Crawl budget spostato sulle pagine di prodotto reali
Google ora scansiona oltre 2.000 prodotti al giorno
Nuovi prodotti indicizzati entro 1 settimana

Miti comuni

Mito: “Più pagine = SEO migliore”

Realtà: 10.000 thin page sprecano crawl budget. 100 pagine di alta qualità si posizionano meglio.

Mito: “Posso aumentare il crawl budget richiedendolo”

Realtà: Google imposta il crawl budget in base all’autorità del tuo sito, alla velocità del server e alla qualità dei contenuti. Non puoi aumentarlo manualmente.

Mito: “Le sitemap XML aumentano il crawl budget”

Realtà: le sitemap aiutano Google a scoprire le pagine, ma non aumentano il numero totale di pagine scansionate al giorno. Aiutano a dare priorità a QUALI pagine vengono scansionate.

Mito: “I siti piccoli devono ottimizzare il crawl budget”

Realtà: se il tuo sito ha meno di 1.000 pagine, Google lo scansiona completamente nel giro di pochi giorni. Non perdere tempo a ottimizzare.

Riferimento rapido

Cosa spreca crawl budget:

Contenuti duplicati
Catene di redirect
Soft 404
Parametri URL (filtri, ordinamenti, tracking)
Risposta del server lenta
Link rotti

Ottimizzazioni del crawl budget:

Invia sitemap XML
Usa robots.txt per bloccare le pagine a basso valore
Correggi gli errori di crawl (500, redirect)
Migliora la velocità del server
Gestisci i parametri URL in Search Console
Aggiungi link interni alle pagine importanti

Cosa controlla Surmado

Site Audit cerca:

Errori di crawl (500, 404, catene di redirect)
Contenuti duplicati che sprecano crawl budget
Parametri URL che creano spazi infiniti
Tempi di risposta del server lenti
Pagine orfane non linkate internamente

→ Correlati: Robots.txt Essentials | XML Sitemaps Explained | Server Response Codes

Prossimi passi

Prova Site Audit o esegui il tuo report (50 $) per ottimizzare l’efficienza di crawl | Accedi

Vedi tutte le funzionalità di Site Audit →

TLDR

Come funziona il crawl budget

Chi deve preoccuparsi del crawl budget?

DOVRESTI ottimizzare se:

Probabilmente NON devi preoccuparti se:

Cosa spreca il crawl budget

1. Contenuti duplicati

2. Pagine di bassa qualità o thin

3. Soft 404 (404 finti)

4. Catene di redirect

5. Spazi infiniti (navigazione a faccette)

6. Link rotti (404)

7. Pagine orfane

Come ottimizzare il crawl budget

1. Invia una sitemap XML

2. Correggi gli errori di crawl

3. Migliora la velocità del sito

4. Usa robots.txt strategicamente

5. Gestisci i parametri URL

6. Aggiorna i contenuti regolarmente

7. Linking interno

8. Monitora e regola il crawl rate

Come controllare il tuo crawl budget

Google Search Console

Log del server

Caso studio: sito e-commerce

Miti comuni

Mito: “Più pagine = SEO migliore”

Mito: “Posso aumentare il crawl budget richiedendolo”

Mito: “Le sitemap XML aumentano il crawl budget”

Mito: “I siti piccoli devono ottimizzare il crawl budget”

Riferimento rapido

Cosa controlla Surmado

Prossimi passi

Ricostruiamo il Tuo Sito

Continua a leggere

Quando assumere un'agenzia SEO o fare audit da solo

Il QA da 15 minuti pre-lancio che ha salvato il nostro lancio di prodotto

Il tuo punteggio Google Lighthouse è una bugia: 5 errori critici