Vai al contenuto principale
Accedi

Crawl Budget: perché Google non indicizza tutte le tue pagine

Cos'è il crawl budget, perché conta per i siti grandi e come ottimizzarlo. Consigli pratici per aiutare Google a scoprire le tue pagine più in fretta.

Definizione rapida: il crawl budget è il numero di pagine che Google scansiona sul tuo sito entro un determinato periodo (di solito al giorno). Se il tuo sito ha 10.000 pagine ma Google ne scansiona solo 100 al giorno, ci vorranno 100 giorni per indicizzare tutto, presumendo che nel frattempo tu non aggiunga nuove pagine.

Insight chiave: i siti piccoli (sotto le 1.000 pagine) raramente devono preoccuparsi del crawl budget. I siti grandi, gli e-commerce e i siti di notizie dovrebbero ottimizzarlo.

TLDR

Il crawl budget indica quante pagine Google scansiona sul tuo sito al giorno. I siti piccoli sotto le 1.000 pagine non devono preoccuparsi. Google li scansiona completamente nel giro di pochi giorni. I siti grandi sprecano budget su contenuti duplicati, catene di redirect, link rotti e combinazioni infinite di filtri. Un sito e-commerce ha bloccato le pagine di filtro a basso valore ed è passato da 500 prodotti scansionati al giorno a 2.000, riducendo l’indicizzazione dei nuovi prodotti da mesi a una settimana. Ottimizza inviando una sitemap XML, bloccando le pagine a basso valore e migliorando la velocità del server.


Come funziona il crawl budget

Il crawler di Google (Googlebot) ha risorse limitate. Decide:

  1. Quante pagine scansionare sul tuo sito (crawl rate)
  2. Quali pagine dare in priorità (crawl demand)

Limite di crawl rate:

  • Determinato dalla capacità del tuo server
  • Google non scansiona così velocemente da mandare in crash il server
  • Più alto per i siti con server veloci e buon hosting

Crawl demand:

  • Quanto è popolare la pagina? (traffico, backlink)
  • Con quale frequenza si aggiorna?
  • È già indicizzata e si posiziona?

Crawl budget = Limite di rate × Demand


Chi deve preoccuparsi del crawl budget?

DOVRESTI ottimizzare se:

  • Sito e-commerce con oltre 10.000 prodotti
  • Sito di notizie che pubblica oltre 50 articoli al giorno
  • Sito con milioni di pagine (grandi directory, database)
  • Sito internazionale con molte varianti di lingua/paese
  • Sito con molti parametri URL (filtri, ordinamenti, sessioni)
  • Sito che soffre di indicizzazione lenta (le nuove pagine impiegano settimane a comparire)

Probabilmente NON devi preoccuparti se:

  • Blog con meno di 1.000 pagine
  • Sito di piccola impresa (5-50 pagine)
  • Portfolio o sito vetrina
  • Sito nuovo con contenuti limitati

Indicazioni di Google stesso: i siti sotto le 1.000 URL vengono scansionati efficientemente senza intervento.


Cosa spreca il crawl budget

1. Contenuti duplicati

Problema:

example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue

Google scansiona 4 URL, ma sono tutti lo stesso contenuto.

Soluzione:

  • Usa tag canonical che puntano a /product/blue-widget
  • Blocca i parametri in robots.txt: Disallow: /*?
  • Imposta la gestione dei parametri in Google Search Console

2. Pagine di bassa qualità o thin

Esempi:

  • Pagine di categoria vuote
  • Pagine di ricerca “Nessun risultato trovato”
  • Pagine paginate con contenuti minimi
  • Doorway page generate automaticamente

Soluzione:

  • Metti in noindex le thin page
  • Consolida i contenuti
  • Usa robots.txt per bloccare la scansione

3. Soft 404 (404 finti)

Problema: pagine che non esistono ma restituiscono 200 OK invece di 404 Not Found.

Esempio:

GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"

Google scansiona queste pagine pensando che siano reali, sprecando budget.

Soluzione: restituisci codici di stato 404 corretti per le pagine mancanti.

4. Catene di redirect

Problema:

Pagina A → 301 → Pagina B → 301 → Pagina C → 301 → Pagina D

Google deve scansionare 4 URL per raggiungere la destinazione finale.

Soluzione: reindirizza direttamente:

Pagina A → 301 → Pagina D
Pagina B → 301 → Pagina D
Pagina C → 301 → Pagina D

5. Spazi infiniti (navigazione a faccette)

Problema: filtri e-commerce che creano milioni di combinazioni:

/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...

Soluzione:

  • Usa noindex sulle pagine filtrate
  • Implementa rel="canonical" verso la categoria principale
  • Blocca i parametri di filtro in robots.txt
  • Usa filtri AJAX (che non cambiano l’URL)

Problema: link interni che puntano a pagine inesistenti.

Perché spreca budget: Google scansiona il 404, non ottiene nulla di utile, ma viene comunque conteggiato sul tuo budget.

Soluzione:

  • Esegui audit regolari dei link rotti (Screaming Frog, Ahrefs)
  • Correggi i 404 interni (aggiorna i link o reindirizza)

7. Pagine orfane

Problema: pagine senza alcun link interno che puntano a esse.

Perché conta: se Google non riesce a trovare la pagina attraverso la navigazione del tuo sito, potrebbe non scansionarla mai (a meno che non abbia backlink esterni).

Soluzione:

  • Aggiungi le pagine alla tua sitemap
  • Linkale dalle pagine pertinenti
  • Cerca le pagine orfane con strumenti di crawling

Come ottimizzare il crawl budget

1. Invia una sitemap XML

Perché aiuta: dice a Google esattamente quali pagine esistono e con quale frequenza cambiano.

Come:

  • Genera la sitemap (la maggior parte dei CMS lo fa automaticamente)
  • Invia tramite Google Search Console
  • Tienila aggiornata (rimuovi le pagine eliminate, aggiungi le nuove)

Priorità della sitemap:

<url>
  <loc>https://example.com/important-page</loc>
  <priority>1.0</priority>
  <changefreq>daily</changefreq>
</url>

Nota: priority e changefreq sono suggerimenti, non comandi. Google può ignorarli.

2. Correggi gli errori di crawl

Controlla Google Search Console:

  • Copertura → Errori
  • Cerca errori del server (500, 503)
  • Correggi i redirect rotti
  • Risolvi i problemi DNS

Errori comuni:

  • Server error (5xx)
  • Redirect error
  • Submitted URL not found (404)

3. Migliora la velocità del sito

Perché conta: server più veloci = Google può scansionare più pagine nello stesso tempo.

Ottimizzazioni:

  • Aggiorna l’hosting (shared → VPS → dedicato)
  • Abilita la compressione gzip
  • Ottimizza le query del database
  • Usa una CDN per gli asset statici
  • Riduci il tempo di risposta del server (punta a meno di 200ms)

Controlla la velocità:

  • Google Search Console → Impostazioni → Statistiche di scansione
  • Mostra il tempo medio di risposta, le richieste di crawl al giorno

4. Usa robots.txt strategicamente

Blocca le pagine a basso valore:

User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/

Permetti le pagine ad alto valore:

Allow: /products/
Allow: /blog/

5. Gestisci i parametri URL

Google Search Console → Impostazioni → Parametri URL:

  • Ordinamenti (price-low-high): dì a Google di ignorarli
  • Filtri (color=red): URL rappresentativo
  • Paginazione (page=2): lascia decidere a Googlebot
  • Tracking (utm_source): dì a Google di ignorarli

Esempio di configurazione:

Parameter: color
Effect: No URLs
Googlebot: No URLs (parameter doesn't change page content significantly)

6. Aggiorna i contenuti regolarmente

Perché: Google dà priorità alla scansione delle pagine che cambiano frequentemente.

Strategia:

  • Aggiorna i vecchi post del blog (aggiungi nuove informazioni, aggiorna le date)
  • Mantieni aggiornate le descrizioni dei prodotti
  • Rimuovi i contenuti stagionali obsoleti
  • Pubblica nuovi contenuti in modo costante

Prove che Google sta scansionando:

  • Google Search Console → Impostazioni → Statistiche di scansione
  • Controlla “Richieste di crawl totali” nel tempo

7. Linking interno

Perché aiuta: Google scopre le pagine seguendo i link. Più link interni = scoperta più facile.

Best practice:

  • Linka le nuove pagine da pagine ad alta autorità (homepage, post popolari)
  • Usa anchor text descrittivi
  • Non seppellire le pagine importanti a 5 click di profondità o più
  • Crea pagine hub che linkano a contenuti correlati

8. Monitora e regola il crawl rate

Google Search Console → Impostazioni → Crawl rate:

  • Mostra il crawl rate attuale (richieste al giorno)
  • Non puoi aumentarlo, solo diminuirlo (se Google sta sovraccaricando il tuo server)

Se il crawl rate è troppo basso:

  • Migliora la velocità del server
  • Correggi gli errori di crawl
  • Aggiungi link interni alle pagine importanti
  • Aggiorna i contenuti più frequentemente

Come controllare il tuo crawl budget

Google Search Console

Impostazioni → Statistiche di scansione:

  • Richieste di crawl totali: pagine scansionate al giorno
  • Dimensione totale di download: dati trasferiti
  • Tempo medio di risposta: velocità del server
  • Richieste di crawl per stato: 200, 404, 301, ecc.

Come si presentano statistiche buone:

  • Richieste di crawl in aumento nel tempo (se aggiungi contenuti)
  • La maggior parte delle richieste restituisce 200 OK
  • Pochi errori 404 e 500
  • Tempo medio di risposta sotto i 500ms

Segnali di allarme:

  • Richieste di crawl in calo (Google sta perdendo interesse)
  • Molti errori 500 (problemi del server)
  • Tempi di risposta lenti (oltre 1 secondo)

Log del server

Avanzato: analizza i log del server per vedere esattamente cosa scansiona Googlebot.

Strumenti:

  • Screaming Frog Log File Analyzer
  • Splunk
  • Script personalizzati (grep/awk)

Cosa cercare:

  • Quali pagine Google scansiona di più
  • Pagine che Google non scansiona mai (orfane)
  • Frequenza di scansione per sezione

Caso studio: sito e-commerce

Problema:

  • 50.000 pagine di prodotto
  • Google scansiona 500 pagine al giorno
  • I nuovi prodotti impiegano oltre 3 mesi a essere indicizzati

Indagine:

  • Il 70% del crawl budget sprecato su pagine di filtro (/shoes?color=red&size=10...)
  • Il 15% sprecato su ID di sessione (/product?session=abc123)
  • Il 10% su immagini rotte, file CSS

Soluzione:

  1. Messe in noindex tutte le pagine con combinazioni di filtri
  2. Bloccati i parametri di sessione in robots.txt
  3. Corretti i link rotti
  4. Inviata una sitemap solo dei prodotti

Risultato:

  • Crawl budget spostato sulle pagine di prodotto reali
  • Google ora scansiona oltre 2.000 prodotti al giorno
  • Nuovi prodotti indicizzati entro 1 settimana

Miti comuni

Mito: “Più pagine = SEO migliore”

Realtà: 10.000 thin page sprecano crawl budget. 100 pagine di alta qualità si posizionano meglio.

Mito: “Posso aumentare il crawl budget richiedendolo”

Realtà: Google imposta il crawl budget in base all’autorità del tuo sito, alla velocità del server e alla qualità dei contenuti. Non puoi aumentarlo manualmente.

Mito: “Le sitemap XML aumentano il crawl budget”

Realtà: le sitemap aiutano Google a scoprire le pagine, ma non aumentano il numero totale di pagine scansionate al giorno. Aiutano a dare priorità a QUALI pagine vengono scansionate.

Mito: “I siti piccoli devono ottimizzare il crawl budget”

Realtà: se il tuo sito ha meno di 1.000 pagine, Google lo scansiona completamente nel giro di pochi giorni. Non perdere tempo a ottimizzare.


Riferimento rapido

Cosa spreca crawl budget:

  • Contenuti duplicati
  • Catene di redirect
  • Soft 404
  • Parametri URL (filtri, ordinamenti, tracking)
  • Risposta del server lenta
  • Link rotti

Ottimizzazioni del crawl budget:

  • Invia sitemap XML
  • Usa robots.txt per bloccare le pagine a basso valore
  • Correggi gli errori di crawl (500, redirect)
  • Migliora la velocità del server
  • Gestisci i parametri URL in Search Console
  • Aggiungi link interni alle pagine importanti

Cosa controlla Surmado

Site Audit cerca:

  • Errori di crawl (500, 404, catene di redirect)
  • Contenuti duplicati che sprecano crawl budget
  • Parametri URL che creano spazi infiniti
  • Tempi di risposta del server lenti
  • Pagine orfane non linkate internamente

Correlati: Robots.txt Essentials | XML Sitemaps Explained | Server Response Codes

Prossimi passi

Prova Site Audit o esegui il tuo report (50 $) per ottimizzare l’efficienza di crawl | Accedi

Vedi tutte le funzionalità di Site Audit →

Pronto a passare all’azione?

Scout analizza il tuo brand in ~15 minuti.