Definição rápida: Crawl budget é o número de páginas que o Google vai rastrear no seu site dentro de um período (normalmente por dia). Se o seu site tem 10.000 páginas mas o Google só rastreia 100 por dia, vai levar 100 dias para indexar tudo. Isso assumindo que você não adicione novas páginas no meio do caminho.
Insight chave: Sites pequenos (menos de 1.000 páginas) raramente precisam se preocupar com crawl budget. Sites grandes, lojas de e-commerce e sites de notícias devem otimizá-lo.
TLDR
Crawl budget é quantas páginas o Google vai rastrear no seu site por dia. Sites pequenos com menos de 1.000 páginas não precisam se preocupar. O Google os rastreia totalmente em poucos dias. Sites grandes desperdiçam orçamento com conteúdo duplicado, cadeias de redirecionamento, links quebrados e combinações infinitas de filtros. Um site de e-commerce bloqueou páginas de filtro de baixo valor e passou de 500 produtos rastreados por dia para 2.000, reduzindo a indexação de novos produtos de meses para uma semana. Otimize enviando um sitemap XML, bloqueando páginas de baixo valor e melhorando a velocidade do servidor.
Como o crawl budget funciona
O crawler do Google (Googlebot) tem recursos limitados. Ele decide:
- Quantas páginas rastrear no seu site (taxa de rastreamento)
- Quais páginas priorizar (demanda de rastreamento)
Limite da taxa de rastreamento:
- Determinado pela capacidade do seu servidor
- O Google não vai rastrear tão rápido a ponto de derrubar seu servidor
- Maior para sites com servidores rápidos e boa hospedagem
Demanda de rastreamento:
- Quão popular é a página? (tráfego, backlinks)
- Com que frequência ela é atualizada?
- Já está indexada e ranqueando?
Crawl budget = Limite de taxa × Demanda
Quem precisa se importar com crawl budget?
Você DEVE otimizar se:
- Site de e-commerce com mais de 10.000 produtos
- Site de notícias publicando mais de 50 artigos por dia
- Site com milhões de páginas (grandes diretórios, bancos de dados)
- Site internacional com muitas variações de idioma/país
- Site com muitos parâmetros de URL (filtros, ordenações, sessões)
- Site sofrendo de indexação lenta (novas páginas levam semanas para aparecer)
Você provavelmente NÃO precisa se preocupar se:
- Blog com menos de 1.000 páginas
- Site de pequena empresa (5 a 50 páginas)
- Site de portfólio ou catálogo
- Site novo com conteúdo limitado
Orientação do próprio Google: Sites com menos de 1.000 URLs são rastreados de forma eficiente sem intervenção.
O que desperdiça crawl budget
1. Conteúdo duplicado
Problema:
example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue
O Google rastreia 4 URLs, mas todas têm o mesmo conteúdo.
Solução:
- Use tags canônicas apontando para
/product/blue-widget - Bloqueie parâmetros no robots.txt:
Disallow: /*? - Configure o tratamento de parâmetros no Google Search Console
2. Páginas de baixa qualidade ou rasas
Exemplos:
- Páginas de categoria vazias
- Páginas de busca “Nenhum resultado encontrado”
- Páginas paginadas com conteúdo mínimo
- Páginas de entrada geradas automaticamente
Solução:
- Aplique noindex em páginas rasas
- Consolide conteúdo
- Use robots.txt para bloquear o rastreamento
3. Soft 404s (404s falsos)
Problema: Páginas que não existem mas retornam 200 OK em vez de 404 Not Found.
Exemplo:
GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"
O Google rastreia essas páginas pensando que são reais, desperdiçando orçamento.
Solução: Retorne códigos de status 404 apropriados para páginas inexistentes.
4. Cadeias de redirecionamento
Problema:
Página A → 301 → Página B → 301 → Página C → 301 → Página D
O Google precisa rastrear 4 URLs para chegar ao destino final.
Solução: Redirecione diretamente:
Página A → 301 → Página D
Página B → 301 → Página D
Página C → 301 → Página D
5. Espaços infinitos (navegação facetada)
Problema: Filtros de e-commerce criando milhões de combinações:
/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...
Solução:
- Use
noindexem páginas filtradas - Implemente
rel="canonical"para a categoria principal - Bloqueie parâmetros de filtro no robots.txt
- Use filtros AJAX (que não mudam a URL)
6. Links quebrados (404s)
Problema: Links internos apontando para páginas inexistentes.
Por que desperdiça orçamento: O Google rastreia o 404, não obtém nada útil, mas ainda conta contra o seu orçamento.
Solução:
- Faça auditorias regulares de links quebrados (Screaming Frog, Ahrefs)
- Corrija 404s internos (atualize links ou redirecione)
7. Páginas órfãs
Problema: Páginas sem nenhum link interno apontando para elas.
Por que importa: Se o Google não consegue encontrar a página pela navegação do seu site, pode nunca rastreá-la (a menos que tenha backlinks externos).
Solução:
- Adicione páginas ao seu sitemap
- Crie links para elas a partir de páginas relevantes
- Verifique órfãs com ferramentas de rastreamento
Como otimizar o crawl budget
1. Envie um sitemap XML
Por que ajuda: Diz ao Google exatamente quais páginas existem e com que frequência mudam.
Como:
- Gere o sitemap (a maioria dos CMS faz isso automaticamente)
- Envie pelo Google Search Console
- Mantenha-o atualizado (remova páginas excluídas, adicione novas)
Prioridades do sitemap:
<url>
<loc>https://example.com/important-page</loc>
<priority>1.0</priority>
<changefreq>daily</changefreq>
</url>
Observação: Priority e changefreq são dicas, não comandos. O Google pode ignorá-los.
2. Corrija erros de rastreamento
Verifique o Google Search Console:
- Cobertura → Erros
- Procure por erros de servidor (500, 503)
- Corrija redirecionamentos quebrados
- Resolva problemas de DNS
Erros comuns:
Server error (5xx)Redirect errorSubmitted URL not found (404)
3. Melhore a velocidade do site
Por que importa: Servidores mais rápidos = o Google consegue rastrear mais páginas no mesmo tempo.
Otimizações:
- Faça upgrade da hospedagem (compartilhada → VPS → dedicada)
- Habilite compressão gzip
- Otimize consultas de banco de dados
- Use uma CDN para assets estáticos
- Reduza o tempo de resposta do servidor (mire em menos de 200ms)
Verifique a velocidade:
- Google Search Console → Configurações → Estatísticas de rastreamento
- Mostra tempo médio de resposta, requisições de rastreamento por dia
4. Use robots.txt estrategicamente
Bloqueie páginas de baixo valor:
User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/
Permita páginas de alto valor:
Allow: /products/
Allow: /blog/
5. Gerencie parâmetros de URL
Google Search Console → Configurações → Parâmetros de URL:
- Ordenações (price-low-high): Diga ao Google para ignorar
- Filtros (color=red): URL representativa
- Paginação (page=2): Deixe o Googlebot decidir
- Rastreamento (utm_source): Diga ao Google para ignorar
Exemplo de configuração:
Parameter: color
Effect: No URLs
Googlebot: No URLs (parameter doesn't change page content significantly)
6. Atualize o conteúdo regularmente
Por quê: O Google prioriza rastrear páginas que mudam com frequência.
Estratégia:
- Atualize posts antigos do blog (adicione novas informações, atualize datas)
- Mantenha descrições de produto atualizadas
- Remova conteúdo sazonal desatualizado
- Publique novo conteúdo de forma consistente
Evidência de que o Google está rastreando:
- Google Search Console → Configurações → Estatísticas de rastreamento
- Verifique “Total de requisições de rastreamento” ao longo do tempo
7. Linkagem interna
Por que ajuda: O Google descobre páginas seguindo links. Mais links internos = descoberta mais fácil.
Boas práticas:
- Crie links para novas páginas a partir de páginas de alta autoridade (homepage, posts populares)
- Use texto âncora descritivo
- Não enterre páginas importantes a 5 ou mais cliques de profundidade
- Crie páginas hub linkando para conteúdo relacionado
8. Monitore e ajuste a taxa de rastreamento
Google Search Console → Configurações → Taxa de rastreamento:
- Mostra a taxa atual de rastreamento (requisições por dia)
- Você não pode aumentá-la, apenas diminuí-la (se o Google estiver sobrecarregando seu servidor)
Se a taxa de rastreamento estiver baixa demais:
- Melhore a velocidade do servidor
- Corrija erros de rastreamento
- Adicione links internos para páginas importantes
- Atualize o conteúdo com mais frequência
Verificando seu crawl budget
Google Search Console
Configurações → Estatísticas de rastreamento:
- Total de requisições de rastreamento: Páginas rastreadas por dia
- Tamanho total de download: Dados transferidos
- Tempo médio de resposta: Velocidade do servidor
- Requisições de rastreamento por status: 200, 404, 301, etc.
Como são boas estatísticas:
- Requisições de rastreamento aumentando ao longo do tempo (se você adiciona conteúdo)
- Maioria das requisições retornando
200 OK - Poucos erros
404e500 - Tempo médio de resposta abaixo de 500ms
Sinais de alerta:
- Requisições de rastreamento diminuindo (Google perdendo interesse)
- Muitos erros
500(problemas de servidor) - Tempos de resposta lentos (mais de 1 segundo)
Logs do servidor
Avançado: Analise logs do servidor para ver exatamente o que o Googlebot rastreia.
Ferramentas:
- Screaming Frog Log File Analyzer
- Splunk
- Scripts customizados (grep/awk)
O que procurar:
- Quais páginas o Google rastreia mais
- Páginas que o Google nunca rastreia (órfãs)
- Frequência de rastreamento por seção
Estudo de caso: Site de e-commerce
Problema:
- 50.000 páginas de produto
- Google rastreando 500 páginas por dia
- Novos produtos levando mais de 3 meses para indexar
Investigação:
- 70% do crawl budget desperdiçado em páginas de filtro (
/shoes?color=red&size=10...) - 15% desperdiçado em IDs de sessão (
/product?session=abc123) - 10% em imagens quebradas, arquivos CSS
Solução:
- Aplicaram noindex em todas as páginas de combinação de filtros
- Bloquearam parâmetros de sessão no robots.txt
- Corrigiram links quebrados
- Enviaram um sitemap apenas com produtos
Resultado:
- Crawl budget redirecionado para páginas de produto reais
- Google agora rastreando mais de 2.000 produtos por dia
- Novos produtos indexados em até 1 semana
Mitos comuns
Mito: “Mais páginas = melhor SEO”
Realidade: 10.000 páginas rasas desperdiçam crawl budget. 100 páginas de alta qualidade ranqueiam melhor.
Mito: “Posso aumentar o crawl budget pedindo”
Realidade: O Google define o crawl budget baseado na autoridade do seu site, velocidade do servidor e qualidade do conteúdo. Você não pode aumentá-lo manualmente.
Mito: “Sitemaps XML aumentam o crawl budget”
Realidade: Sitemaps ajudam o Google a descobrir páginas, mas não aumentam o número total de páginas rastreadas por dia. Eles ajudam a priorizar QUAIS páginas são rastreadas.
Mito: “Sites pequenos precisam otimizar crawl budget”
Realidade: Se o seu site tem menos de 1.000 páginas, o Google o rastreia totalmente em poucos dias. Não perca tempo otimizando.
Referência rápida
Desperdiçadores de crawl budget:
- Conteúdo duplicado
- Cadeias de redirecionamento
- Soft 404s
- Parâmetros de URL (filtros, ordenações, rastreamento)
- Resposta lenta do servidor
- Links quebrados
Otimizações de crawl budget:
- Envie sitemap XML
- Use robots.txt para bloquear páginas de baixo valor
- Corrija erros de rastreamento (500s, redirecionamentos)
- Melhore a velocidade do servidor
- Gerencie parâmetros de URL no Search Console
- Adicione links internos para páginas importantes
O que o Surmado verifica
Site Audit procura por:
- Erros de rastreamento (500, 404, cadeias de redirecionamento)
- Conteúdo duplicado desperdiçando crawl budget
- Parâmetros de URL criando espaços infinitos
- Tempos de resposta lentos do servidor
- Páginas órfãs sem links internos
→ Relacionado: Robots.txt Essentials | XML Sitemaps Explained | Server Response Codes
Próximos passos
Experimente o Site Audit ou rode seu relatório ($50) para otimizar a eficiência de rastreamento | Entrar