Saltar al contenido principal
Acceso

Crawl Budget: por qué Google no indexa todas tus páginas

Qué es el crawl budget, por qué importa para sitios grandes y cómo optimizarlo. Consejos prácticos para que Google descubra tus páginas más rápido.

Definición rápida: El crawl budget (presupuesto de rastreo) es la cantidad de páginas que Google rastreará en tu sitio dentro de un periodo determinado (normalmente por día). Si tu sitio tiene 10,000 páginas pero Google solo rastrea 100/día, tomará 100 días indexar todo. Eso suponiendo que no agregues páginas nuevas mientras tanto.

Idea clave: Los sitios pequeños (menos de 1,000 páginas) rara vez necesitan preocuparse por el crawl budget. Los sitios grandes, las tiendas de e-commerce y los sitios de noticias deberían optimizarlo.

TLDR

El crawl budget es cuántas páginas rastreará Google en tu sitio por día. Los sitios pequeños con menos de 1,000 páginas no necesitan preocuparse. Google los rastrea por completo en cuestión de días. Los sitios grandes desperdician presupuesto en contenido duplicado, cadenas de redirecciones, enlaces rotos y combinaciones infinitas de filtros. Un sitio de e-commerce bloqueó páginas de filtros de bajo valor y pasó de 500 productos rastreados al día a 2,000, reduciendo la indexación de productos nuevos de meses a una semana. Optimiza enviando un sitemap XML, bloqueando páginas de bajo valor y mejorando la velocidad del servidor.


Cómo funciona el crawl budget

El crawler de Google (Googlebot) tiene recursos limitados. Decide:

  1. Cuántas páginas rastrear en tu sitio (tasa de rastreo)
  2. Qué páginas priorizar (demanda de rastreo)

Límite de tasa de rastreo:

  • Determinado por la capacidad de tu servidor
  • Google no rastreará tan rápido como para tirar tu servidor
  • Mayor para sitios con servidores rápidos y buen hosting

Demanda de rastreo:

  • ¿Qué tan popular es la página? (tráfico, backlinks)
  • ¿Con qué frecuencia se actualiza?
  • ¿Ya está indexada y posicionada?

Crawl budget = Límite de tasa × Demanda


¿Quién necesita preocuparse por el crawl budget?

SÍ deberías optimizar si:

  • Sitio de e-commerce con más de 10,000 productos
  • Sitio de noticias publicando más de 50 artículos/día
  • Sitio con millones de páginas (directorios grandes, bases de datos)
  • Sitio internacional con muchas variaciones de idioma/país
  • Sitio con muchos parámetros en la URL (filtros, ordenamientos, sesiones)
  • Sitio que sufre de indexación lenta (las páginas nuevas tardan semanas en aparecer)

Probablemente NO necesitas preocuparte si:

  • Blog con menos de 1,000 páginas
  • Sitio de pequeño negocio (5-50 páginas)
  • Sitio de portafolio o catálogo
  • Sitio nuevo con contenido limitado

Guía oficial de Google: Los sitios con menos de 1,000 URLs se rastrean eficientemente sin intervención.


Qué desperdicia el crawl budget

1. Contenido duplicado

Problema:

example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue

Google rastrea 4 URLs, pero todas tienen el mismo contenido.

Solución:

  • Usa etiquetas canónicas apuntando a /product/blue-widget
  • Bloquea parámetros en robots.txt: Disallow: /*?
  • Configura el manejo de parámetros en Google Search Console

2. Páginas delgadas o de baja calidad

Ejemplos:

  • Páginas de categoría vacías
  • Páginas de búsqueda con “No se encontraron resultados”
  • Páginas paginadas con contenido mínimo
  • Páginas puerta generadas automáticamente

Solución:

  • Aplica noindex a páginas delgadas
  • Consolida contenido
  • Usa robots.txt para bloquear el rastreo

3. Soft 404s (404s falsos)

Problema: Páginas que no existen pero devuelven 200 OK en lugar de 404 Not Found.

Ejemplo:

GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"

Google las rastrea creyendo que son páginas reales, desperdiciando presupuesto.

Solución: Devuelve códigos de estado 404 correctos para páginas que no existen.

4. Cadenas de redirecciones

Problema:

Página A → 301 → Página B → 301 → Página C → 301 → Página D

Google debe rastrear 4 URLs para llegar al destino final.

Solución: Redirige directamente:

Página A → 301 → Página D
Página B → 301 → Página D
Página C → 301 → Página D

5. Espacios infinitos (navegación facetada)

Problema: Filtros de e-commerce que crean millones de combinaciones:

/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...

Solución:

  • Usa noindex en páginas filtradas
  • Implementa rel="canonical" apuntando a la categoría principal
  • Bloquea parámetros de filtro en robots.txt
  • Usa filtros con AJAX (que no cambien la URL)

6. Enlaces rotos (404s)

Problema: Enlaces internos que apuntan a páginas inexistentes.

Por qué desperdicia presupuesto: Google rastrea el 404, no obtiene nada útil, pero igual cuenta contra tu presupuesto.

Solución:

  • Ejecuta auditorías regulares de enlaces rotos (Screaming Frog, Ahrefs)
  • Arregla los 404 internos (actualiza enlaces o redirige)

7. Páginas huérfanas

Problema: Páginas sin ningún enlace interno apuntándolas.

Por qué importa: Si Google no puede encontrar la página a través de la navegación de tu sitio, puede que nunca la rastree (a menos que tenga backlinks externos).

Solución:

  • Agrega las páginas a tu sitemap
  • Enlaza a ellas desde páginas relevantes
  • Detecta huérfanas con herramientas de rastreo

Cómo optimizar el crawl budget

1. Envía un sitemap XML

Por qué ayuda: Le dice a Google exactamente qué páginas existen y con qué frecuencia cambian.

Cómo:

  • Genera el sitemap (la mayoría de los CMS lo hacen automáticamente)
  • Envíalo a través de Google Search Console
  • Mantenlo actualizado (elimina páginas borradas, agrega las nuevas)

Prioridades del sitemap:

<url>
  <loc>https://example.com/important-page</loc>
  <priority>1.0</priority>
  <changefreq>daily</changefreq>
</url>

Nota: Priority y changefreq son sugerencias, no órdenes. Google puede ignorarlas.

2. Arregla los errores de rastreo

Revisa Google Search Console:

  • Cobertura → Errores
  • Busca errores del servidor (500, 503)
  • Arregla redirecciones rotas
  • Resuelve problemas de DNS

Errores comunes:

  • Server error (5xx)
  • Redirect error
  • Submitted URL not found (404)

3. Mejora la velocidad del sitio

Por qué importa: Servidores más rápidos = Google puede rastrear más páginas en el mismo tiempo.

Optimizaciones:

  • Mejora tu hosting (compartido → VPS → dedicado)
  • Habilita compresión gzip
  • Optimiza consultas a la base de datos
  • Usa un CDN para assets estáticos
  • Reduce el tiempo de respuesta del servidor (apunta a <200ms)

Revisa la velocidad:

  • Google Search Console → Configuración → Estadísticas de rastreo
  • Muestra tiempo de respuesta promedio, solicitudes de rastreo/día

4. Usa robots.txt estratégicamente

Bloquea páginas de bajo valor:

User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/

Permite páginas de alto valor:

Allow: /products/
Allow: /blog/

5. Gestiona los parámetros de URL

Google Search Console → Configuración → Parámetros de URL:

  • Ordenamientos (price-low-high): Dile a Google que los ignore
  • Filtros (color=red): URL representativa
  • Paginación (page=2): Deja que Googlebot decida
  • Tracking (utm_source): Dile a Google que los ignore

Ejemplo de configuración:

Parámetro: color
Efecto: Sin URLs
Googlebot: Sin URLs (el parámetro no cambia significativamente el contenido de la página)

6. Actualiza el contenido regularmente

Por qué: Google prioriza el rastreo de páginas que cambian con frecuencia.

Estrategia:

  • Actualiza posts viejos del blog (agrega información nueva, actualiza fechas)
  • Mantén las descripciones de productos al día
  • Elimina contenido estacional desactualizado
  • Publica contenido nuevo de forma constante

Evidencia de que Google está rastreando:

  • Google Search Console → Configuración → Estadísticas de rastreo
  • Revisa “Total de solicitudes de rastreo” en el tiempo

7. Enlazado interno

Por qué ayuda: Google descubre páginas siguiendo enlaces. Más enlaces internos = descubrimiento más fácil.

Mejores prácticas:

  • Enlaza a páginas nuevas desde páginas con alta autoridad (homepage, posts populares)
  • Usa texto ancla descriptivo
  • No entierres páginas importantes a 5+ clics de profundidad
  • Crea páginas hub que enlacen a contenido relacionado

8. Monitorea y ajusta la tasa de rastreo

Google Search Console → Configuración → Tasa de rastreo:

  • Muestra la tasa de rastreo actual (solicitudes/día)
  • No puedes aumentarla, solo disminuirla (si Google está sobrecargando tu servidor)

Si la tasa de rastreo es muy baja:

  • Mejora la velocidad del servidor
  • Arregla los errores de rastreo
  • Agrega enlaces internos a páginas importantes
  • Actualiza el contenido con más frecuencia

Cómo revisar tu crawl budget

Google Search Console

Configuración → Estadísticas de rastreo:

  • Total de solicitudes de rastreo: Páginas rastreadas por día
  • Tamaño total de descarga: Datos transferidos
  • Tiempo de respuesta promedio: Velocidad del servidor
  • Solicitudes de rastreo por estado: 200, 404, 301, etc.

Cómo se ven las buenas estadísticas:

  • Solicitudes de rastreo aumentando con el tiempo (si agregas contenido)
  • La mayoría de solicitudes devolviendo 200 OK
  • Pocos errores 404 y 500
  • Tiempo de respuesta promedio bajo 500ms

Señales de alerta:

  • Solicitudes de rastreo en descenso (Google perdiendo interés)
  • Muchos errores 500 (problemas del servidor)
  • Tiempos de respuesta lentos (> 1 segundo)

Logs del servidor

Avanzado: Analiza los logs del servidor para ver exactamente qué rastrea Googlebot.

Herramientas:

  • Screaming Frog Log File Analyzer
  • Splunk
  • Scripts personalizados (grep/awk)

Qué buscar:

  • Qué páginas rastrea Google con más frecuencia
  • Páginas que Google nunca rastrea (huérfanas)
  • Frecuencia de rastreo por sección

Caso de estudio: sitio de e-commerce

Problema:

  • 50,000 páginas de productos
  • Google rastreando 500 páginas/día
  • Productos nuevos tardando más de 3 meses en indexarse

Investigación:

  • 70% del crawl budget desperdiciado en páginas de filtros (/shoes?color=red&size=10...)
  • 15% desperdiciado en IDs de sesión (/product?session=abc123)
  • 10% en imágenes y archivos CSS rotos

Solución:

  1. Aplicaron noindex a todas las páginas de combinaciones de filtros
  2. Bloquearon parámetros de sesión en robots.txt
  3. Arreglaron enlaces rotos
  4. Enviaron un sitemap solo de productos

Resultado:

  • El crawl budget se redirigió a las páginas reales de productos
  • Google ahora rastrea más de 2,000 productos/día
  • Los productos nuevos se indexan en 1 semana

Mitos comunes

Mito: “Más páginas = mejor SEO”

Realidad: 10,000 páginas delgadas desperdician crawl budget. 100 páginas de alta calidad posicionan mejor.

Mito: “Puedo aumentar el crawl budget pidiéndolo”

Realidad: Google define el crawl budget según la autoridad de tu sitio, la velocidad del servidor y la calidad del contenido. No puedes aumentarlo manualmente.

Mito: “Los sitemaps XML aumentan el crawl budget”

Realidad: Los sitemaps ayudan a Google a descubrir páginas, pero no aumentan el número total de páginas rastreadas por día. Ayudan a priorizar QUÉ páginas se rastrean.

Mito: “Los sitios pequeños necesitan optimizar el crawl budget”

Realidad: Si tu sitio tiene menos de 1,000 páginas, Google lo rastrea por completo en cuestión de días. No pierdas tiempo optimizándolo.


Referencia rápida

Cosas que desperdician crawl budget:

  • Contenido duplicado
  • Cadenas de redirecciones
  • Soft 404s
  • Parámetros de URL (filtros, ordenamientos, tracking)
  • Respuesta lenta del servidor
  • Enlaces rotos

Optimizaciones del crawl budget:

  • Envía un sitemap XML
  • Usa robots.txt para bloquear páginas de bajo valor
  • Arregla errores de rastreo (500s, redirecciones)
  • Mejora la velocidad del servidor
  • Gestiona los parámetros de URL en Search Console
  • Agrega enlaces internos a páginas importantes

Qué revisa Surmado

Site Audit busca:

  • Errores de rastreo (500, 404, cadenas de redirecciones)
  • Contenido duplicado que desperdicia crawl budget
  • Parámetros de URL que crean espacios infinitos
  • Tiempos de respuesta lentos del servidor
  • Páginas huérfanas sin enlaces internos

Relacionado: Robots.txt Essentials | XML Sitemaps Explained | Server Response Codes

Próximos pasos

Prueba Site Audit o ejecuta tu reporte ($50) para optimizar la eficiencia de rastreo | Inicia sesión

Ver todas las funciones de Site Audit →

¿Listo para actuar?

Scout investiga tu marca en ~15 minutos.