Crawl Budget: por que o Google não indexa todas as suas páginas

Definição rápida: Crawl budget é o número de páginas que o Google vai rastrear no seu site dentro de um período (normalmente por dia). Se o seu site tem 10.000 páginas mas o Google só rastreia 100 por dia, vai levar 100 dias para indexar tudo. Isso assumindo que você não adicione novas páginas no meio do caminho.

Insight chave: Sites pequenos (menos de 1.000 páginas) raramente precisam se preocupar com crawl budget. Sites grandes, lojas de e-commerce e sites de notícias devem otimizá-lo.

TLDR

Crawl budget é quantas páginas o Google vai rastrear no seu site por dia. Sites pequenos com menos de 1.000 páginas não precisam se preocupar. O Google os rastreia totalmente em poucos dias. Sites grandes desperdiçam orçamento com conteúdo duplicado, cadeias de redirecionamento, links quebrados e combinações infinitas de filtros. Um site de e-commerce bloqueou páginas de filtro de baixo valor e passou de 500 produtos rastreados por dia para 2.000, reduzindo a indexação de novos produtos de meses para uma semana. Otimize enviando um sitemap XML, bloqueando páginas de baixo valor e melhorando a velocidade do servidor.

Como o crawl budget funciona

O crawler do Google (Googlebot) tem recursos limitados. Ele decide:

Quantas páginas rastrear no seu site (taxa de rastreamento)
Quais páginas priorizar (demanda de rastreamento)

Limite da taxa de rastreamento:

Determinado pela capacidade do seu servidor
O Google não vai rastrear tão rápido a ponto de derrubar seu servidor
Maior para sites com servidores rápidos e boa hospedagem

Demanda de rastreamento:

Quão popular é a página? (tráfego, backlinks)
Com que frequência ela é atualizada?
Já está indexada e ranqueando?

Crawl budget = Limite de taxa × Demanda

Quem precisa se importar com crawl budget?

Você DEVE otimizar se:

Site de e-commerce com mais de 10.000 produtos
Site de notícias publicando mais de 50 artigos por dia
Site com milhões de páginas (grandes diretórios, bancos de dados)
Site internacional com muitas variações de idioma/país
Site com muitos parâmetros de URL (filtros, ordenações, sessões)
Site sofrendo de indexação lenta (novas páginas levam semanas para aparecer)

Você provavelmente NÃO precisa se preocupar se:

Blog com menos de 1.000 páginas
Site de pequena empresa (5 a 50 páginas)
Site de portfólio ou catálogo
Site novo com conteúdo limitado

Orientação do próprio Google: Sites com menos de 1.000 URLs são rastreados de forma eficiente sem intervenção.

O que desperdiça crawl budget

1. Conteúdo duplicado

Problema:

example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue

O Google rastreia 4 URLs, mas todas têm o mesmo conteúdo.

Solução:

Use tags canônicas apontando para /product/blue-widget
Bloqueie parâmetros no robots.txt: Disallow: /*?
Configure o tratamento de parâmetros no Google Search Console

2. Páginas de baixa qualidade ou rasas

Exemplos:

Páginas de categoria vazias
Páginas de busca “Nenhum resultado encontrado”
Páginas paginadas com conteúdo mínimo
Páginas de entrada geradas automaticamente

Solução:

Aplique noindex em páginas rasas
Consolide conteúdo
Use robots.txt para bloquear o rastreamento

3. Soft 404s (404s falsos)

Problema: Páginas que não existem mas retornam 200 OK em vez de 404 Not Found.

Exemplo:

GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"

O Google rastreia essas páginas pensando que são reais, desperdiçando orçamento.

Solução: Retorne códigos de status 404 apropriados para páginas inexistentes.

4. Cadeias de redirecionamento

Problema:

Página A → 301 → Página B → 301 → Página C → 301 → Página D

O Google precisa rastrear 4 URLs para chegar ao destino final.

Solução: Redirecione diretamente:

Página A → 301 → Página D
Página B → 301 → Página D
Página C → 301 → Página D

5. Espaços infinitos (navegação facetada)

Problema: Filtros de e-commerce criando milhões de combinações:

/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...

Solução:

Use noindex em páginas filtradas
Implemente rel="canonical" para a categoria principal
Bloqueie parâmetros de filtro no robots.txt
Use filtros AJAX (que não mudam a URL)

6. Links quebrados (404s)

Problema: Links internos apontando para páginas inexistentes.

Por que desperdiça orçamento: O Google rastreia o 404, não obtém nada útil, mas ainda conta contra o seu orçamento.

Solução:

Faça auditorias regulares de links quebrados (Screaming Frog, Ahrefs)
Corrija 404s internos (atualize links ou redirecione)

7. Páginas órfãs

Problema: Páginas sem nenhum link interno apontando para elas.

Por que importa: Se o Google não consegue encontrar a página pela navegação do seu site, pode nunca rastreá-la (a menos que tenha backlinks externos).

Solução:

Adicione páginas ao seu sitemap
Crie links para elas a partir de páginas relevantes
Verifique órfãs com ferramentas de rastreamento

Como otimizar o crawl budget

1. Envie um sitemap XML

Por que ajuda: Diz ao Google exatamente quais páginas existem e com que frequência mudam.

Como:

Gere o sitemap (a maioria dos CMS faz isso automaticamente)
Envie pelo Google Search Console
Mantenha-o atualizado (remova páginas excluídas, adicione novas)

Prioridades do sitemap:

<url>
  <loc>https://example.com/important-page</loc>
  <priority>1.0</priority>
  <changefreq>daily</changefreq>
</url>

Observação: Priority e changefreq são dicas, não comandos. O Google pode ignorá-los.

2. Corrija erros de rastreamento

Verifique o Google Search Console:

Cobertura → Erros
Procure por erros de servidor (500, 503)
Corrija redirecionamentos quebrados
Resolva problemas de DNS

Erros comuns:

Server error (5xx)
Redirect error
Submitted URL not found (404)

3. Melhore a velocidade do site

Por que importa: Servidores mais rápidos = o Google consegue rastrear mais páginas no mesmo tempo.

Otimizações:

Faça upgrade da hospedagem (compartilhada → VPS → dedicada)
Habilite compressão gzip
Otimize consultas de banco de dados
Use uma CDN para assets estáticos
Reduza o tempo de resposta do servidor (mire em menos de 200ms)

Verifique a velocidade:

Google Search Console → Configurações → Estatísticas de rastreamento
Mostra tempo médio de resposta, requisições de rastreamento por dia

4. Use robots.txt estrategicamente

Bloqueie páginas de baixo valor:

User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/

Permita páginas de alto valor:

Allow: /products/
Allow: /blog/

5. Gerencie parâmetros de URL

Google Search Console → Configurações → Parâmetros de URL:

Ordenações (price-low-high): Diga ao Google para ignorar
Filtros (color=red): URL representativa
Paginação (page=2): Deixe o Googlebot decidir
Rastreamento (utm_source): Diga ao Google para ignorar

Exemplo de configuração:

Parameter: color
Effect: No URLs
Googlebot: No URLs (parameter doesn't change page content significantly)

6. Atualize o conteúdo regularmente

Por quê: O Google prioriza rastrear páginas que mudam com frequência.

Estratégia:

Atualize posts antigos do blog (adicione novas informações, atualize datas)
Mantenha descrições de produto atualizadas
Remova conteúdo sazonal desatualizado
Publique novo conteúdo de forma consistente

Evidência de que o Google está rastreando:

Google Search Console → Configurações → Estatísticas de rastreamento
Verifique “Total de requisições de rastreamento” ao longo do tempo

7. Linkagem interna

Por que ajuda: O Google descobre páginas seguindo links. Mais links internos = descoberta mais fácil.

Boas práticas:

Crie links para novas páginas a partir de páginas de alta autoridade (homepage, posts populares)
Use texto âncora descritivo
Não enterre páginas importantes a 5 ou mais cliques de profundidade
Crie páginas hub linkando para conteúdo relacionado

8. Monitore e ajuste a taxa de rastreamento

Google Search Console → Configurações → Taxa de rastreamento:

Mostra a taxa atual de rastreamento (requisições por dia)
Você não pode aumentá-la, apenas diminuí-la (se o Google estiver sobrecarregando seu servidor)

Se a taxa de rastreamento estiver baixa demais:

Melhore a velocidade do servidor
Corrija erros de rastreamento
Adicione links internos para páginas importantes
Atualize o conteúdo com mais frequência

Verificando seu crawl budget

Google Search Console

Configurações → Estatísticas de rastreamento:

Total de requisições de rastreamento: Páginas rastreadas por dia
Tamanho total de download: Dados transferidos
Tempo médio de resposta: Velocidade do servidor
Requisições de rastreamento por status: 200, 404, 301, etc.

Como são boas estatísticas:

Requisições de rastreamento aumentando ao longo do tempo (se você adiciona conteúdo)
Maioria das requisições retornando 200 OK
Poucos erros 404 e 500
Tempo médio de resposta abaixo de 500ms

Sinais de alerta:

Requisições de rastreamento diminuindo (Google perdendo interesse)
Muitos erros 500 (problemas de servidor)
Tempos de resposta lentos (mais de 1 segundo)

Logs do servidor

Avançado: Analise logs do servidor para ver exatamente o que o Googlebot rastreia.

Ferramentas:

Screaming Frog Log File Analyzer
Splunk
Scripts customizados (grep/awk)

O que procurar:

Quais páginas o Google rastreia mais
Páginas que o Google nunca rastreia (órfãs)
Frequência de rastreamento por seção

Estudo de caso: Site de e-commerce

Problema:

50.000 páginas de produto
Google rastreando 500 páginas por dia
Novos produtos levando mais de 3 meses para indexar

Investigação:

70% do crawl budget desperdiçado em páginas de filtro (/shoes?color=red&size=10...)
15% desperdiçado em IDs de sessão (/product?session=abc123)
10% em imagens quebradas, arquivos CSS

Solução:

Aplicaram noindex em todas as páginas de combinação de filtros
Bloquearam parâmetros de sessão no robots.txt
Corrigiram links quebrados
Enviaram um sitemap apenas com produtos

Resultado:

Crawl budget redirecionado para páginas de produto reais
Google agora rastreando mais de 2.000 produtos por dia
Novos produtos indexados em até 1 semana

Mitos comuns

Mito: “Mais páginas = melhor SEO”

Realidade: 10.000 páginas rasas desperdiçam crawl budget. 100 páginas de alta qualidade ranqueiam melhor.

Mito: “Posso aumentar o crawl budget pedindo”

Realidade: O Google define o crawl budget baseado na autoridade do seu site, velocidade do servidor e qualidade do conteúdo. Você não pode aumentá-lo manualmente.

Mito: “Sitemaps XML aumentam o crawl budget”

Realidade: Sitemaps ajudam o Google a descobrir páginas, mas não aumentam o número total de páginas rastreadas por dia. Eles ajudam a priorizar QUAIS páginas são rastreadas.

Mito: “Sites pequenos precisam otimizar crawl budget”

Realidade: Se o seu site tem menos de 1.000 páginas, o Google o rastreia totalmente em poucos dias. Não perca tempo otimizando.

Referência rápida

Desperdiçadores de crawl budget:

Conteúdo duplicado
Cadeias de redirecionamento
Soft 404s
Parâmetros de URL (filtros, ordenações, rastreamento)
Resposta lenta do servidor
Links quebrados

Otimizações de crawl budget:

Envie sitemap XML
Use robots.txt para bloquear páginas de baixo valor
Corrija erros de rastreamento (500s, redirecionamentos)
Melhore a velocidade do servidor
Gerencie parâmetros de URL no Search Console
Adicione links internos para páginas importantes

O que o Surmado verifica

Site Audit procura por:

Erros de rastreamento (500, 404, cadeias de redirecionamento)
Conteúdo duplicado desperdiçando crawl budget
Parâmetros de URL criando espaços infinitos
Tempos de resposta lentos do servidor
Páginas órfãs sem links internos

→ Relacionado: Robots.txt Essentials | XML Sitemaps Explained | Server Response Codes

Próximos passos

Experimente o Site Audit ou rode seu relatório ($50) para otimizar a eficiência de rastreamento | Entrar

Ver todos os recursos do Site Audit →

TLDR

Como o crawl budget funciona

Quem precisa se importar com crawl budget?

Você DEVE otimizar se:

Você provavelmente NÃO precisa se preocupar se:

O que desperdiça crawl budget

1. Conteúdo duplicado

2. Páginas de baixa qualidade ou rasas

3. Soft 404s (404s falsos)

4. Cadeias de redirecionamento

5. Espaços infinitos (navegação facetada)

6. Links quebrados (404s)

7. Páginas órfãs

Como otimizar o crawl budget

1. Envie um sitemap XML

2. Corrija erros de rastreamento

3. Melhore a velocidade do site

4. Use robots.txt estrategicamente

5. Gerencie parâmetros de URL

6. Atualize o conteúdo regularmente

7. Linkagem interna

8. Monitore e ajuste a taxa de rastreamento

Verificando seu crawl budget

Google Search Console

Logs do servidor

Estudo de caso: Site de e-commerce

Mitos comuns

Mito: “Mais páginas = melhor SEO”

Mito: “Posso aumentar o crawl budget pedindo”

Mito: “Sitemaps XML aumentam o crawl budget”

Mito: “Sites pequenos precisam otimizar crawl budget”

Referência rápida

O que o Surmado verifica

Próximos passos

Vamos Reconstruir o Seu Site

Continue lendo

Quando contratar uma agência SEO vs fazer suas próprias auditorias

O QA de 15 Minutos Pré-Lançamento Que Salvou o Lançamento do Nosso Produto

Sua pontuação no Google Lighthouse é uma mentira: 5 erros críticos