Ir para o conteúdo principal
Login

Crawl Budget: por que o Google não indexa todas as suas páginas

O que é crawl budget, por que importa para sites grandes e como otimizá-lo. Dicas práticas para o Google descobrir suas páginas mais rápido.

Definição rápida: Crawl budget é o número de páginas que o Google vai rastrear no seu site dentro de um período (normalmente por dia). Se o seu site tem 10.000 páginas mas o Google só rastreia 100 por dia, vai levar 100 dias para indexar tudo. Isso assumindo que você não adicione novas páginas no meio do caminho.

Insight chave: Sites pequenos (menos de 1.000 páginas) raramente precisam se preocupar com crawl budget. Sites grandes, lojas de e-commerce e sites de notícias devem otimizá-lo.

TLDR

Crawl budget é quantas páginas o Google vai rastrear no seu site por dia. Sites pequenos com menos de 1.000 páginas não precisam se preocupar. O Google os rastreia totalmente em poucos dias. Sites grandes desperdiçam orçamento com conteúdo duplicado, cadeias de redirecionamento, links quebrados e combinações infinitas de filtros. Um site de e-commerce bloqueou páginas de filtro de baixo valor e passou de 500 produtos rastreados por dia para 2.000, reduzindo a indexação de novos produtos de meses para uma semana. Otimize enviando um sitemap XML, bloqueando páginas de baixo valor e melhorando a velocidade do servidor.


Como o crawl budget funciona

O crawler do Google (Googlebot) tem recursos limitados. Ele decide:

  1. Quantas páginas rastrear no seu site (taxa de rastreamento)
  2. Quais páginas priorizar (demanda de rastreamento)

Limite da taxa de rastreamento:

  • Determinado pela capacidade do seu servidor
  • O Google não vai rastrear tão rápido a ponto de derrubar seu servidor
  • Maior para sites com servidores rápidos e boa hospedagem

Demanda de rastreamento:

  • Quão popular é a página? (tráfego, backlinks)
  • Com que frequência ela é atualizada?
  • Já está indexada e ranqueando?

Crawl budget = Limite de taxa × Demanda


Quem precisa se importar com crawl budget?

Você DEVE otimizar se:

  • Site de e-commerce com mais de 10.000 produtos
  • Site de notícias publicando mais de 50 artigos por dia
  • Site com milhões de páginas (grandes diretórios, bancos de dados)
  • Site internacional com muitas variações de idioma/país
  • Site com muitos parâmetros de URL (filtros, ordenações, sessões)
  • Site sofrendo de indexação lenta (novas páginas levam semanas para aparecer)

Você provavelmente NÃO precisa se preocupar se:

  • Blog com menos de 1.000 páginas
  • Site de pequena empresa (5 a 50 páginas)
  • Site de portfólio ou catálogo
  • Site novo com conteúdo limitado

Orientação do próprio Google: Sites com menos de 1.000 URLs são rastreados de forma eficiente sem intervenção.


O que desperdiça crawl budget

1. Conteúdo duplicado

Problema:

example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue

O Google rastreia 4 URLs, mas todas têm o mesmo conteúdo.

Solução:

  • Use tags canônicas apontando para /product/blue-widget
  • Bloqueie parâmetros no robots.txt: Disallow: /*?
  • Configure o tratamento de parâmetros no Google Search Console

2. Páginas de baixa qualidade ou rasas

Exemplos:

  • Páginas de categoria vazias
  • Páginas de busca “Nenhum resultado encontrado”
  • Páginas paginadas com conteúdo mínimo
  • Páginas de entrada geradas automaticamente

Solução:

  • Aplique noindex em páginas rasas
  • Consolide conteúdo
  • Use robots.txt para bloquear o rastreamento

3. Soft 404s (404s falsos)

Problema: Páginas que não existem mas retornam 200 OK em vez de 404 Not Found.

Exemplo:

GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"

O Google rastreia essas páginas pensando que são reais, desperdiçando orçamento.

Solução: Retorne códigos de status 404 apropriados para páginas inexistentes.

4. Cadeias de redirecionamento

Problema:

Página A → 301 → Página B → 301 → Página C → 301 → Página D

O Google precisa rastrear 4 URLs para chegar ao destino final.

Solução: Redirecione diretamente:

Página A → 301 → Página D
Página B → 301 → Página D
Página C → 301 → Página D

5. Espaços infinitos (navegação facetada)

Problema: Filtros de e-commerce criando milhões de combinações:

/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...

Solução:

  • Use noindex em páginas filtradas
  • Implemente rel="canonical" para a categoria principal
  • Bloqueie parâmetros de filtro no robots.txt
  • Use filtros AJAX (que não mudam a URL)

Problema: Links internos apontando para páginas inexistentes.

Por que desperdiça orçamento: O Google rastreia o 404, não obtém nada útil, mas ainda conta contra o seu orçamento.

Solução:

  • Faça auditorias regulares de links quebrados (Screaming Frog, Ahrefs)
  • Corrija 404s internos (atualize links ou redirecione)

7. Páginas órfãs

Problema: Páginas sem nenhum link interno apontando para elas.

Por que importa: Se o Google não consegue encontrar a página pela navegação do seu site, pode nunca rastreá-la (a menos que tenha backlinks externos).

Solução:

  • Adicione páginas ao seu sitemap
  • Crie links para elas a partir de páginas relevantes
  • Verifique órfãs com ferramentas de rastreamento

Como otimizar o crawl budget

1. Envie um sitemap XML

Por que ajuda: Diz ao Google exatamente quais páginas existem e com que frequência mudam.

Como:

  • Gere o sitemap (a maioria dos CMS faz isso automaticamente)
  • Envie pelo Google Search Console
  • Mantenha-o atualizado (remova páginas excluídas, adicione novas)

Prioridades do sitemap:

<url>
  <loc>https://example.com/important-page</loc>
  <priority>1.0</priority>
  <changefreq>daily</changefreq>
</url>

Observação: Priority e changefreq são dicas, não comandos. O Google pode ignorá-los.

2. Corrija erros de rastreamento

Verifique o Google Search Console:

  • Cobertura → Erros
  • Procure por erros de servidor (500, 503)
  • Corrija redirecionamentos quebrados
  • Resolva problemas de DNS

Erros comuns:

  • Server error (5xx)
  • Redirect error
  • Submitted URL not found (404)

3. Melhore a velocidade do site

Por que importa: Servidores mais rápidos = o Google consegue rastrear mais páginas no mesmo tempo.

Otimizações:

  • Faça upgrade da hospedagem (compartilhada → VPS → dedicada)
  • Habilite compressão gzip
  • Otimize consultas de banco de dados
  • Use uma CDN para assets estáticos
  • Reduza o tempo de resposta do servidor (mire em menos de 200ms)

Verifique a velocidade:

  • Google Search Console → Configurações → Estatísticas de rastreamento
  • Mostra tempo médio de resposta, requisições de rastreamento por dia

4. Use robots.txt estrategicamente

Bloqueie páginas de baixo valor:

User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/

Permita páginas de alto valor:

Allow: /products/
Allow: /blog/

5. Gerencie parâmetros de URL

Google Search Console → Configurações → Parâmetros de URL:

  • Ordenações (price-low-high): Diga ao Google para ignorar
  • Filtros (color=red): URL representativa
  • Paginação (page=2): Deixe o Googlebot decidir
  • Rastreamento (utm_source): Diga ao Google para ignorar

Exemplo de configuração:

Parameter: color
Effect: No URLs
Googlebot: No URLs (parameter doesn't change page content significantly)

6. Atualize o conteúdo regularmente

Por quê: O Google prioriza rastrear páginas que mudam com frequência.

Estratégia:

  • Atualize posts antigos do blog (adicione novas informações, atualize datas)
  • Mantenha descrições de produto atualizadas
  • Remova conteúdo sazonal desatualizado
  • Publique novo conteúdo de forma consistente

Evidência de que o Google está rastreando:

  • Google Search Console → Configurações → Estatísticas de rastreamento
  • Verifique “Total de requisições de rastreamento” ao longo do tempo

7. Linkagem interna

Por que ajuda: O Google descobre páginas seguindo links. Mais links internos = descoberta mais fácil.

Boas práticas:

  • Crie links para novas páginas a partir de páginas de alta autoridade (homepage, posts populares)
  • Use texto âncora descritivo
  • Não enterre páginas importantes a 5 ou mais cliques de profundidade
  • Crie páginas hub linkando para conteúdo relacionado

8. Monitore e ajuste a taxa de rastreamento

Google Search Console → Configurações → Taxa de rastreamento:

  • Mostra a taxa atual de rastreamento (requisições por dia)
  • Você não pode aumentá-la, apenas diminuí-la (se o Google estiver sobrecarregando seu servidor)

Se a taxa de rastreamento estiver baixa demais:

  • Melhore a velocidade do servidor
  • Corrija erros de rastreamento
  • Adicione links internos para páginas importantes
  • Atualize o conteúdo com mais frequência

Verificando seu crawl budget

Google Search Console

Configurações → Estatísticas de rastreamento:

  • Total de requisições de rastreamento: Páginas rastreadas por dia
  • Tamanho total de download: Dados transferidos
  • Tempo médio de resposta: Velocidade do servidor
  • Requisições de rastreamento por status: 200, 404, 301, etc.

Como são boas estatísticas:

  • Requisições de rastreamento aumentando ao longo do tempo (se você adiciona conteúdo)
  • Maioria das requisições retornando 200 OK
  • Poucos erros 404 e 500
  • Tempo médio de resposta abaixo de 500ms

Sinais de alerta:

  • Requisições de rastreamento diminuindo (Google perdendo interesse)
  • Muitos erros 500 (problemas de servidor)
  • Tempos de resposta lentos (mais de 1 segundo)

Logs do servidor

Avançado: Analise logs do servidor para ver exatamente o que o Googlebot rastreia.

Ferramentas:

  • Screaming Frog Log File Analyzer
  • Splunk
  • Scripts customizados (grep/awk)

O que procurar:

  • Quais páginas o Google rastreia mais
  • Páginas que o Google nunca rastreia (órfãs)
  • Frequência de rastreamento por seção

Estudo de caso: Site de e-commerce

Problema:

  • 50.000 páginas de produto
  • Google rastreando 500 páginas por dia
  • Novos produtos levando mais de 3 meses para indexar

Investigação:

  • 70% do crawl budget desperdiçado em páginas de filtro (/shoes?color=red&size=10...)
  • 15% desperdiçado em IDs de sessão (/product?session=abc123)
  • 10% em imagens quebradas, arquivos CSS

Solução:

  1. Aplicaram noindex em todas as páginas de combinação de filtros
  2. Bloquearam parâmetros de sessão no robots.txt
  3. Corrigiram links quebrados
  4. Enviaram um sitemap apenas com produtos

Resultado:

  • Crawl budget redirecionado para páginas de produto reais
  • Google agora rastreando mais de 2.000 produtos por dia
  • Novos produtos indexados em até 1 semana

Mitos comuns

Mito: “Mais páginas = melhor SEO”

Realidade: 10.000 páginas rasas desperdiçam crawl budget. 100 páginas de alta qualidade ranqueiam melhor.

Mito: “Posso aumentar o crawl budget pedindo”

Realidade: O Google define o crawl budget baseado na autoridade do seu site, velocidade do servidor e qualidade do conteúdo. Você não pode aumentá-lo manualmente.

Mito: “Sitemaps XML aumentam o crawl budget”

Realidade: Sitemaps ajudam o Google a descobrir páginas, mas não aumentam o número total de páginas rastreadas por dia. Eles ajudam a priorizar QUAIS páginas são rastreadas.

Mito: “Sites pequenos precisam otimizar crawl budget”

Realidade: Se o seu site tem menos de 1.000 páginas, o Google o rastreia totalmente em poucos dias. Não perca tempo otimizando.


Referência rápida

Desperdiçadores de crawl budget:

  • Conteúdo duplicado
  • Cadeias de redirecionamento
  • Soft 404s
  • Parâmetros de URL (filtros, ordenações, rastreamento)
  • Resposta lenta do servidor
  • Links quebrados

Otimizações de crawl budget:

  • Envie sitemap XML
  • Use robots.txt para bloquear páginas de baixo valor
  • Corrija erros de rastreamento (500s, redirecionamentos)
  • Melhore a velocidade do servidor
  • Gerencie parâmetros de URL no Search Console
  • Adicione links internos para páginas importantes

O que o Surmado verifica

Site Audit procura por:

  • Erros de rastreamento (500, 404, cadeias de redirecionamento)
  • Conteúdo duplicado desperdiçando crawl budget
  • Parâmetros de URL criando espaços infinitos
  • Tempos de resposta lentos do servidor
  • Páginas órfãs sem links internos

Relacionado: Robots.txt Essentials | XML Sitemaps Explained | Server Response Codes

Próximos passos

Experimente o Site Audit ou rode seu relatório ($50) para otimizar a eficiência de rastreamento | Entrar

Ver todos os recursos do Site Audit →

Pronto para agir?

O Scout pesquisa sua marca em ~15 minutos.