Crawl Budget: por qué Google no indexa todas tus páginas

Definición rápida: El crawl budget (presupuesto de rastreo) es la cantidad de páginas que Google rastreará en tu sitio dentro de un periodo determinado (normalmente por día). Si tu sitio tiene 10,000 páginas pero Google solo rastrea 100/día, tomará 100 días indexar todo. Eso suponiendo que no agregues páginas nuevas mientras tanto.

Idea clave: Los sitios pequeños (menos de 1,000 páginas) rara vez necesitan preocuparse por el crawl budget. Los sitios grandes, las tiendas de e-commerce y los sitios de noticias deberían optimizarlo.

TLDR

El crawl budget es cuántas páginas rastreará Google en tu sitio por día. Los sitios pequeños con menos de 1,000 páginas no necesitan preocuparse. Google los rastrea por completo en cuestión de días. Los sitios grandes desperdician presupuesto en contenido duplicado, cadenas de redirecciones, enlaces rotos y combinaciones infinitas de filtros. Un sitio de e-commerce bloqueó páginas de filtros de bajo valor y pasó de 500 productos rastreados al día a 2,000, reduciendo la indexación de productos nuevos de meses a una semana. Optimiza enviando un sitemap XML, bloqueando páginas de bajo valor y mejorando la velocidad del servidor.

Cómo funciona el crawl budget

El crawler de Google (Googlebot) tiene recursos limitados. Decide:

Cuántas páginas rastrear en tu sitio (tasa de rastreo)
Qué páginas priorizar (demanda de rastreo)

Límite de tasa de rastreo:

Determinado por la capacidad de tu servidor
Google no rastreará tan rápido como para tirar tu servidor
Mayor para sitios con servidores rápidos y buen hosting

Demanda de rastreo:

¿Qué tan popular es la página? (tráfico, backlinks)
¿Con qué frecuencia se actualiza?
¿Ya está indexada y posicionada?

Crawl budget = Límite de tasa × Demanda

¿Quién necesita preocuparse por el crawl budget?

SÍ deberías optimizar si:

Sitio de e-commerce con más de 10,000 productos
Sitio de noticias publicando más de 50 artículos/día
Sitio con millones de páginas (directorios grandes, bases de datos)
Sitio internacional con muchas variaciones de idioma/país
Sitio con muchos parámetros en la URL (filtros, ordenamientos, sesiones)
Sitio que sufre de indexación lenta (las páginas nuevas tardan semanas en aparecer)

Probablemente NO necesitas preocuparte si:

Blog con menos de 1,000 páginas
Sitio de pequeño negocio (5-50 páginas)
Sitio de portafolio o catálogo
Sitio nuevo con contenido limitado

Guía oficial de Google: Los sitios con menos de 1,000 URLs se rastrean eficientemente sin intervención.

Qué desperdicia el crawl budget

1. Contenido duplicado

Problema:

example.com/product/blue-widget
example.com/product/blue-widget?ref=homepage
example.com/product/blue-widget?sort=price
example.com/product/blue-widget?color=blue

Google rastrea 4 URLs, pero todas tienen el mismo contenido.

Solución:

Usa etiquetas canónicas apuntando a /product/blue-widget
Bloquea parámetros en robots.txt: Disallow: /*?
Configura el manejo de parámetros en Google Search Console

2. Páginas delgadas o de baja calidad

Ejemplos:

Páginas de categoría vacías
Páginas de búsqueda con “No se encontraron resultados”
Páginas paginadas con contenido mínimo
Páginas puerta generadas automáticamente

Solución:

Aplica noindex a páginas delgadas
Consolida contenido
Usa robots.txt para bloquear el rastreo

3. Soft 404s (404s falsos)

Problema: Páginas que no existen pero devuelven 200 OK en lugar de 404 Not Found.

Ejemplo:

GET /this-page-doesnt-exist
Response: 200 OK
Body: "Sorry, page not found"

Google las rastrea creyendo que son páginas reales, desperdiciando presupuesto.

Solución: Devuelve códigos de estado 404 correctos para páginas que no existen.

4. Cadenas de redirecciones

Problema:

Página A → 301 → Página B → 301 → Página C → 301 → Página D

Google debe rastrear 4 URLs para llegar al destino final.

Solución: Redirige directamente:

Página A → 301 → Página D
Página B → 301 → Página D
Página C → 301 → Página D

5. Espacios infinitos (navegación facetada)

Problema: Filtros de e-commerce que crean millones de combinaciones:

/shoes
/shoes?color=red
/shoes?color=red&size=10
/shoes?color=red&size=10&brand=nike
/shoes?color=red&size=10&brand=nike&price=50-100
...

Solución:

Usa noindex en páginas filtradas
Implementa rel="canonical" apuntando a la categoría principal
Bloquea parámetros de filtro en robots.txt
Usa filtros con AJAX (que no cambien la URL)

6. Enlaces rotos (404s)

Problema: Enlaces internos que apuntan a páginas inexistentes.

Por qué desperdicia presupuesto: Google rastrea el 404, no obtiene nada útil, pero igual cuenta contra tu presupuesto.

Solución:

Ejecuta auditorías regulares de enlaces rotos (Screaming Frog, Ahrefs)
Arregla los 404 internos (actualiza enlaces o redirige)

7. Páginas huérfanas

Problema: Páginas sin ningún enlace interno apuntándolas.

Por qué importa: Si Google no puede encontrar la página a través de la navegación de tu sitio, puede que nunca la rastree (a menos que tenga backlinks externos).

Solución:

Agrega las páginas a tu sitemap
Enlaza a ellas desde páginas relevantes
Detecta huérfanas con herramientas de rastreo

Cómo optimizar el crawl budget

1. Envía un sitemap XML

Por qué ayuda: Le dice a Google exactamente qué páginas existen y con qué frecuencia cambian.

Cómo:

Genera el sitemap (la mayoría de los CMS lo hacen automáticamente)
Envíalo a través de Google Search Console
Mantenlo actualizado (elimina páginas borradas, agrega las nuevas)

Prioridades del sitemap:

<url>
  <loc>https://example.com/important-page</loc>
  <priority>1.0</priority>
  <changefreq>daily</changefreq>
</url>

Nota: Priority y changefreq son sugerencias, no órdenes. Google puede ignorarlas.

2. Arregla los errores de rastreo

Revisa Google Search Console:

Cobertura → Errores
Busca errores del servidor (500, 503)
Arregla redirecciones rotas
Resuelve problemas de DNS

Errores comunes:

Server error (5xx)
Redirect error
Submitted URL not found (404)

3. Mejora la velocidad del sitio

Por qué importa: Servidores más rápidos = Google puede rastrear más páginas en el mismo tiempo.

Optimizaciones:

Mejora tu hosting (compartido → VPS → dedicado)
Habilita compresión gzip
Optimiza consultas a la base de datos
Usa un CDN para assets estáticos
Reduce el tiempo de respuesta del servidor (apunta a <200ms)

Revisa la velocidad:

Google Search Console → Configuración → Estadísticas de rastreo
Muestra tiempo de respuesta promedio, solicitudes de rastreo/día

4. Usa robots.txt estratégicamente

Bloquea páginas de bajo valor:

User-agent: *
Disallow: /search?
Disallow: /filter?
Disallow: /cart/
Disallow: /checkout/
Disallow: /admin/

Permite páginas de alto valor:

Allow: /products/
Allow: /blog/

5. Gestiona los parámetros de URL

Google Search Console → Configuración → Parámetros de URL:

Ordenamientos (price-low-high): Dile a Google que los ignore
Filtros (color=red): URL representativa
Paginación (page=2): Deja que Googlebot decida
Tracking (utm_source): Dile a Google que los ignore

Ejemplo de configuración:

Parámetro: color
Efecto: Sin URLs
Googlebot: Sin URLs (el parámetro no cambia significativamente el contenido de la página)

6. Actualiza el contenido regularmente

Por qué: Google prioriza el rastreo de páginas que cambian con frecuencia.

Estrategia:

Actualiza posts viejos del blog (agrega información nueva, actualiza fechas)
Mantén las descripciones de productos al día
Elimina contenido estacional desactualizado
Publica contenido nuevo de forma constante

Evidencia de que Google está rastreando:

Google Search Console → Configuración → Estadísticas de rastreo
Revisa “Total de solicitudes de rastreo” en el tiempo

7. Enlazado interno

Por qué ayuda: Google descubre páginas siguiendo enlaces. Más enlaces internos = descubrimiento más fácil.

Mejores prácticas:

Enlaza a páginas nuevas desde páginas con alta autoridad (homepage, posts populares)
Usa texto ancla descriptivo
No entierres páginas importantes a 5+ clics de profundidad
Crea páginas hub que enlacen a contenido relacionado

8. Monitorea y ajusta la tasa de rastreo

Google Search Console → Configuración → Tasa de rastreo:

Muestra la tasa de rastreo actual (solicitudes/día)
No puedes aumentarla, solo disminuirla (si Google está sobrecargando tu servidor)

Si la tasa de rastreo es muy baja:

Mejora la velocidad del servidor
Arregla los errores de rastreo
Agrega enlaces internos a páginas importantes
Actualiza el contenido con más frecuencia

Cómo revisar tu crawl budget

Google Search Console

Configuración → Estadísticas de rastreo:

Total de solicitudes de rastreo: Páginas rastreadas por día
Tamaño total de descarga: Datos transferidos
Tiempo de respuesta promedio: Velocidad del servidor
Solicitudes de rastreo por estado: 200, 404, 301, etc.

Cómo se ven las buenas estadísticas:

Solicitudes de rastreo aumentando con el tiempo (si agregas contenido)
La mayoría de solicitudes devolviendo 200 OK
Pocos errores 404 y 500
Tiempo de respuesta promedio bajo 500ms

Señales de alerta:

Solicitudes de rastreo en descenso (Google perdiendo interés)
Muchos errores 500 (problemas del servidor)
Tiempos de respuesta lentos (> 1 segundo)

Logs del servidor

Avanzado: Analiza los logs del servidor para ver exactamente qué rastrea Googlebot.

Herramientas:

Screaming Frog Log File Analyzer
Splunk
Scripts personalizados (grep/awk)

Qué buscar:

Qué páginas rastrea Google con más frecuencia
Páginas que Google nunca rastrea (huérfanas)
Frecuencia de rastreo por sección

Caso de estudio: sitio de e-commerce

Problema:

50,000 páginas de productos
Google rastreando 500 páginas/día
Productos nuevos tardando más de 3 meses en indexarse

Investigación:

70% del crawl budget desperdiciado en páginas de filtros (/shoes?color=red&size=10...)
15% desperdiciado en IDs de sesión (/product?session=abc123)
10% en imágenes y archivos CSS rotos

Solución:

Aplicaron noindex a todas las páginas de combinaciones de filtros
Bloquearon parámetros de sesión en robots.txt
Arreglaron enlaces rotos
Enviaron un sitemap solo de productos

Resultado:

El crawl budget se redirigió a las páginas reales de productos
Google ahora rastrea más de 2,000 productos/día
Los productos nuevos se indexan en 1 semana

Mitos comunes

Mito: “Más páginas = mejor SEO”

Realidad: 10,000 páginas delgadas desperdician crawl budget. 100 páginas de alta calidad posicionan mejor.

Mito: “Puedo aumentar el crawl budget pidiéndolo”

Realidad: Google define el crawl budget según la autoridad de tu sitio, la velocidad del servidor y la calidad del contenido. No puedes aumentarlo manualmente.

Mito: “Los sitemaps XML aumentan el crawl budget”

Realidad: Los sitemaps ayudan a Google a descubrir páginas, pero no aumentan el número total de páginas rastreadas por día. Ayudan a priorizar QUÉ páginas se rastrean.

Mito: “Los sitios pequeños necesitan optimizar el crawl budget”

Realidad: Si tu sitio tiene menos de 1,000 páginas, Google lo rastrea por completo en cuestión de días. No pierdas tiempo optimizándolo.

Referencia rápida

Cosas que desperdician crawl budget:

Contenido duplicado
Cadenas de redirecciones
Soft 404s
Parámetros de URL (filtros, ordenamientos, tracking)
Respuesta lenta del servidor
Enlaces rotos

Optimizaciones del crawl budget:

Envía un sitemap XML
Usa robots.txt para bloquear páginas de bajo valor
Arregla errores de rastreo (500s, redirecciones)
Mejora la velocidad del servidor
Gestiona los parámetros de URL en Search Console
Agrega enlaces internos a páginas importantes

Qué revisa Surmado

Site Audit busca:

Errores de rastreo (500, 404, cadenas de redirecciones)
Contenido duplicado que desperdicia crawl budget
Parámetros de URL que crean espacios infinitos
Tiempos de respuesta lentos del servidor
Páginas huérfanas sin enlaces internos

→ Relacionado: Robots.txt Essentials | XML Sitemaps Explained | Server Response Codes

Próximos pasos

Prueba Site Audit o ejecuta tu reporte ($50) para optimizar la eficiencia de rastreo | Inicia sesión

Ver todas las funciones de Site Audit →

TLDR

Cómo funciona el crawl budget

¿Quién necesita preocuparse por el crawl budget?

SÍ deberías optimizar si:

Probablemente NO necesitas preocuparte si:

Qué desperdicia el crawl budget

1. Contenido duplicado

2. Páginas delgadas o de baja calidad

3. Soft 404s (404s falsos)

4. Cadenas de redirecciones

5. Espacios infinitos (navegación facetada)

6. Enlaces rotos (404s)

7. Páginas huérfanas

Cómo optimizar el crawl budget

1. Envía un sitemap XML

2. Arregla los errores de rastreo

3. Mejora la velocidad del sitio

4. Usa robots.txt estratégicamente

5. Gestiona los parámetros de URL

6. Actualiza el contenido regularmente

7. Enlazado interno

8. Monitorea y ajusta la tasa de rastreo

Cómo revisar tu crawl budget

Google Search Console

Logs del servidor

Caso de estudio: sitio de e-commerce

Mitos comunes

Mito: “Más páginas = mejor SEO”

Mito: “Puedo aumentar el crawl budget pidiéndolo”

Mito: “Los sitemaps XML aumentan el crawl budget”

Mito: “Los sitios pequeños necesitan optimizar el crawl budget”

Referencia rápida

Qué revisa Surmado

Próximos pasos

Reconstruyamos tu sitio web

Seguir leyendo

Cuándo contratar una agencia SEO vs hacer tus propias auditorías

El control de calidad de 15 minutos antes del lanzamiento que salvó nuestro lanzamiento de producto

Tu puntuación de Google Lighthouse es mentira: 5 errores críticos