Definición rápida: El crawl budget (presupuesto de rastreo) es la cantidad de páginas que Google rastreará en tu sitio dentro de un periodo determinado (normalmente por día). Si tu sitio tiene 10,000 páginas pero Google solo rastrea 100/día, tomará 100 días indexar todo. Eso suponiendo que no agregues páginas nuevas mientras tanto.
Idea clave: Los sitios pequeños (menos de 1,000 páginas) rara vez necesitan preocuparse por el crawl budget. Los sitios grandes, las tiendas de e-commerce y los sitios de noticias deberían optimizarlo.
TLDR
El crawl budget es cuántas páginas rastreará Google en tu sitio por día. Los sitios pequeños con menos de 1,000 páginas no necesitan preocuparse. Google los rastrea por completo en cuestión de días. Los sitios grandes desperdician presupuesto en contenido duplicado, cadenas de redirecciones, enlaces rotos y combinaciones infinitas de filtros. Un sitio de e-commerce bloqueó páginas de filtros de bajo valor y pasó de 500 productos rastreados al día a 2,000, reduciendo la indexación de productos nuevos de meses a una semana. Optimiza enviando un sitemap XML, bloqueando páginas de bajo valor y mejorando la velocidad del servidor.
Cómo funciona el crawl budget
El crawler de Google (Googlebot) tiene recursos limitados. Decide:
- Cuántas páginas rastrear en tu sitio (tasa de rastreo)
- Qué páginas priorizar (demanda de rastreo)
Límite de tasa de rastreo:
- Determinado por la capacidad de tu servidor
- Google no rastreará tan rápido como para tirar tu servidor
- Mayor para sitios con servidores rápidos y buen hosting
Demanda de rastreo:
- ¿Qué tan popular es la página? (tráfico, backlinks)
- ¿Con qué frecuencia se actualiza?
- ¿Ya está indexada y posicionada?
Crawl budget = Límite de tasa × Demanda
¿Quién necesita preocuparse por el crawl budget?
SÍ deberías optimizar si:
- Sitio de e-commerce con más de 10,000 productos
- Sitio de noticias publicando más de 50 artículos/día
- Sitio con millones de páginas (directorios grandes, bases de datos)
- Sitio internacional con muchas variaciones de idioma/país
- Sitio con muchos parámetros en la URL (filtros, ordenamientos, sesiones)
- Sitio que sufre de indexación lenta (las páginas nuevas tardan semanas en aparecer)
Probablemente NO necesitas preocuparte si:
- Blog con menos de 1,000 páginas
- Sitio de pequeño negocio (5-50 páginas)
- Sitio de portafolio o catálogo
- Sitio nuevo con contenido limitado
Guía oficial de Google: Los sitios con menos de 1,000 URLs se rastrean eficientemente sin intervención.
Qué desperdicia el crawl budget
1. Contenido duplicado
Problema:
example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue
Google rastrea 4 URLs, pero todas tienen el mismo contenido.
Solución:
- Usa etiquetas canónicas apuntando a
/product/blue-widget - Bloquea parámetros en robots.txt:
Disallow: /*? - Configura el manejo de parámetros en Google Search Console
2. Páginas delgadas o de baja calidad
Ejemplos:
- Páginas de categoría vacías
- Páginas de búsqueda con “No se encontraron resultados”
- Páginas paginadas con contenido mínimo
- Páginas puerta generadas automáticamente
Solución:
- Aplica noindex a páginas delgadas
- Consolida contenido
- Usa robots.txt para bloquear el rastreo
3. Soft 404s (404s falsos)
Problema: Páginas que no existen pero devuelven 200 OK en lugar de 404 Not Found.
Ejemplo:
GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"
Google las rastrea creyendo que son páginas reales, desperdiciando presupuesto.
Solución: Devuelve códigos de estado 404 correctos para páginas que no existen.
4. Cadenas de redirecciones
Problema:
Página A → 301 → Página B → 301 → Página C → 301 → Página D
Google debe rastrear 4 URLs para llegar al destino final.
Solución: Redirige directamente:
Página A → 301 → Página D
Página B → 301 → Página D
Página C → 301 → Página D
5. Espacios infinitos (navegación facetada)
Problema: Filtros de e-commerce que crean millones de combinaciones:
/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...
Solución:
- Usa
noindexen páginas filtradas - Implementa
rel="canonical"apuntando a la categoría principal - Bloquea parámetros de filtro en robots.txt
- Usa filtros con AJAX (que no cambien la URL)
6. Enlaces rotos (404s)
Problema: Enlaces internos que apuntan a páginas inexistentes.
Por qué desperdicia presupuesto: Google rastrea el 404, no obtiene nada útil, pero igual cuenta contra tu presupuesto.
Solución:
- Ejecuta auditorías regulares de enlaces rotos (Screaming Frog, Ahrefs)
- Arregla los 404 internos (actualiza enlaces o redirige)
7. Páginas huérfanas
Problema: Páginas sin ningún enlace interno apuntándolas.
Por qué importa: Si Google no puede encontrar la página a través de la navegación de tu sitio, puede que nunca la rastree (a menos que tenga backlinks externos).
Solución:
- Agrega las páginas a tu sitemap
- Enlaza a ellas desde páginas relevantes
- Detecta huérfanas con herramientas de rastreo
Cómo optimizar el crawl budget
1. Envía un sitemap XML
Por qué ayuda: Le dice a Google exactamente qué páginas existen y con qué frecuencia cambian.
Cómo:
- Genera el sitemap (la mayoría de los CMS lo hacen automáticamente)
- Envíalo a través de Google Search Console
- Mantenlo actualizado (elimina páginas borradas, agrega las nuevas)
Prioridades del sitemap:
<url>
<loc>https://example.com/important-page</loc>
<priority>1.0</priority>
<changefreq>daily</changefreq>
</url>
Nota: Priority y changefreq son sugerencias, no órdenes. Google puede ignorarlas.
2. Arregla los errores de rastreo
Revisa Google Search Console:
- Cobertura → Errores
- Busca errores del servidor (500, 503)
- Arregla redirecciones rotas
- Resuelve problemas de DNS
Errores comunes:
Server error (5xx)Redirect errorSubmitted URL not found (404)
3. Mejora la velocidad del sitio
Por qué importa: Servidores más rápidos = Google puede rastrear más páginas en el mismo tiempo.
Optimizaciones:
- Mejora tu hosting (compartido → VPS → dedicado)
- Habilita compresión gzip
- Optimiza consultas a la base de datos
- Usa un CDN para assets estáticos
- Reduce el tiempo de respuesta del servidor (apunta a <200ms)
Revisa la velocidad:
- Google Search Console → Configuración → Estadísticas de rastreo
- Muestra tiempo de respuesta promedio, solicitudes de rastreo/día
4. Usa robots.txt estratégicamente
Bloquea páginas de bajo valor:
User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/
Permite páginas de alto valor:
Allow: /products/
Allow: /blog/
5. Gestiona los parámetros de URL
Google Search Console → Configuración → Parámetros de URL:
- Ordenamientos (price-low-high): Dile a Google que los ignore
- Filtros (color=red): URL representativa
- Paginación (page=2): Deja que Googlebot decida
- Tracking (utm_source): Dile a Google que los ignore
Ejemplo de configuración:
Parámetro: color
Efecto: Sin URLs
Googlebot: Sin URLs (el parámetro no cambia significativamente el contenido de la página)
6. Actualiza el contenido regularmente
Por qué: Google prioriza el rastreo de páginas que cambian con frecuencia.
Estrategia:
- Actualiza posts viejos del blog (agrega información nueva, actualiza fechas)
- Mantén las descripciones de productos al día
- Elimina contenido estacional desactualizado
- Publica contenido nuevo de forma constante
Evidencia de que Google está rastreando:
- Google Search Console → Configuración → Estadísticas de rastreo
- Revisa “Total de solicitudes de rastreo” en el tiempo
7. Enlazado interno
Por qué ayuda: Google descubre páginas siguiendo enlaces. Más enlaces internos = descubrimiento más fácil.
Mejores prácticas:
- Enlaza a páginas nuevas desde páginas con alta autoridad (homepage, posts populares)
- Usa texto ancla descriptivo
- No entierres páginas importantes a 5+ clics de profundidad
- Crea páginas hub que enlacen a contenido relacionado
8. Monitorea y ajusta la tasa de rastreo
Google Search Console → Configuración → Tasa de rastreo:
- Muestra la tasa de rastreo actual (solicitudes/día)
- No puedes aumentarla, solo disminuirla (si Google está sobrecargando tu servidor)
Si la tasa de rastreo es muy baja:
- Mejora la velocidad del servidor
- Arregla los errores de rastreo
- Agrega enlaces internos a páginas importantes
- Actualiza el contenido con más frecuencia
Cómo revisar tu crawl budget
Google Search Console
Configuración → Estadísticas de rastreo:
- Total de solicitudes de rastreo: Páginas rastreadas por día
- Tamaño total de descarga: Datos transferidos
- Tiempo de respuesta promedio: Velocidad del servidor
- Solicitudes de rastreo por estado: 200, 404, 301, etc.
Cómo se ven las buenas estadísticas:
- Solicitudes de rastreo aumentando con el tiempo (si agregas contenido)
- La mayoría de solicitudes devolviendo
200 OK - Pocos errores
404y500 - Tiempo de respuesta promedio bajo 500ms
Señales de alerta:
- Solicitudes de rastreo en descenso (Google perdiendo interés)
- Muchos errores
500(problemas del servidor) - Tiempos de respuesta lentos (> 1 segundo)
Logs del servidor
Avanzado: Analiza los logs del servidor para ver exactamente qué rastrea Googlebot.
Herramientas:
- Screaming Frog Log File Analyzer
- Splunk
- Scripts personalizados (grep/awk)
Qué buscar:
- Qué páginas rastrea Google con más frecuencia
- Páginas que Google nunca rastrea (huérfanas)
- Frecuencia de rastreo por sección
Caso de estudio: sitio de e-commerce
Problema:
- 50,000 páginas de productos
- Google rastreando 500 páginas/día
- Productos nuevos tardando más de 3 meses en indexarse
Investigación:
- 70% del crawl budget desperdiciado en páginas de filtros (
/shoes?color=red&size=10...) - 15% desperdiciado en IDs de sesión (
/product?session=abc123) - 10% en imágenes y archivos CSS rotos
Solución:
- Aplicaron noindex a todas las páginas de combinaciones de filtros
- Bloquearon parámetros de sesión en robots.txt
- Arreglaron enlaces rotos
- Enviaron un sitemap solo de productos
Resultado:
- El crawl budget se redirigió a las páginas reales de productos
- Google ahora rastrea más de 2,000 productos/día
- Los productos nuevos se indexan en 1 semana
Mitos comunes
Mito: “Más páginas = mejor SEO”
Realidad: 10,000 páginas delgadas desperdician crawl budget. 100 páginas de alta calidad posicionan mejor.
Mito: “Puedo aumentar el crawl budget pidiéndolo”
Realidad: Google define el crawl budget según la autoridad de tu sitio, la velocidad del servidor y la calidad del contenido. No puedes aumentarlo manualmente.
Mito: “Los sitemaps XML aumentan el crawl budget”
Realidad: Los sitemaps ayudan a Google a descubrir páginas, pero no aumentan el número total de páginas rastreadas por día. Ayudan a priorizar QUÉ páginas se rastrean.
Mito: “Los sitios pequeños necesitan optimizar el crawl budget”
Realidad: Si tu sitio tiene menos de 1,000 páginas, Google lo rastrea por completo en cuestión de días. No pierdas tiempo optimizándolo.
Referencia rápida
Cosas que desperdician crawl budget:
- Contenido duplicado
- Cadenas de redirecciones
- Soft 404s
- Parámetros de URL (filtros, ordenamientos, tracking)
- Respuesta lenta del servidor
- Enlaces rotos
Optimizaciones del crawl budget:
- Envía un sitemap XML
- Usa robots.txt para bloquear páginas de bajo valor
- Arregla errores de rastreo (500s, redirecciones)
- Mejora la velocidad del servidor
- Gestiona los parámetros de URL en Search Console
- Agrega enlaces internos a páginas importantes
Qué revisa Surmado
Site Audit busca:
- Errores de rastreo (500, 404, cadenas de redirecciones)
- Contenido duplicado que desperdicia crawl budget
- Parámetros de URL que crean espacios infinitos
- Tiempos de respuesta lentos del servidor
- Páginas huérfanas sin enlaces internos
→ Relacionado: Robots.txt Essentials | XML Sitemaps Explained | Server Response Codes
Próximos pasos
Prueba Site Audit o ejecuta tu reporte ($50) para optimizar la eficiencia de rastreo | Inicia sesión