Contenidos
Probablemente si has llegado hasta aquí, es porque te dedicas al SEO, desarrollo web, o algo similar…, probablemente trabajes en una agencia de marketing online o eres un consultor freelance ¿verdad?
En este post vamos a hablar del crawl budget, qué es y porqué se debe optimizar, ya que es una parte muy olvidada en el SEO, a pesar de ser importantísima, sobre todo para sitios web con muchas urls.
Qué es el crawl budget
Hay muchos crawlers o rastreadores que viajan rápidamente por los diferentes sitios web de internet. Probablemente el que más nos interesa es Googlebot, la “araña rastreadora” de Google que viaja de enlace a enlace a un ritmo vertiginoso por todas las webs.
El crawler de Google no puede estar un tiempo indefinido en un sitio web, por eso normalmente no rastrea todas las urls cuando entra en sitio grande. Así que, debemos evitar que el tiempo de rastreo que Google nos ha adjudicado se desperdicie en urls que no son importantes para nuestro posicionamiento.
Por cierto, el tiempo que nuestra web tendrá asignada va a depender de la autoridad del dominio, la velocidad de carga, accesibilidad….
Optimiza el crawl budget
Hay un par de archivos, que seguro os sonarán, que son realmente importantes para que googlebot no pierda tiempo en urls innecesarias.
- Sitemap.xml: El archivo sitemap es como un mapa del sitio, en el que solo deben aparecer las páginas importantes de un sitio web, es decir, las que deseamos que Google indexe y posicione.
No hay que descuidar en ningún momento este archivo, ya que si se hace algún cambio importante en la web puede que se quede obsoleto, o que incluya redirecciones o errores 404, lo que sería un grave error.
- Robots.txt: Otro archivo de vital importancia para la optimización del crawleo de un sitio web. En este se pueden dar directrices a los rastreadores para que rastreen o no, algunas páginas o carpetas en concreto.
Un claro ejemplo de ello podría ser un sitio web en el que los usuarios se puedan crear un perfil. Con el paso del tiempo, pueden crearse cientos o miles de perfiles (incluso de gente que hace spam para dejar un enlace a su web), con sus respectivas urls, por eso no nos conviene que googlebot pierda el tiempo en tal cantidad páginas.
Imagina que la estructura de las urls de los perfiles es dominio.com/user/nombre-usuario. En este caso, en el archivo robots se podría deshabilitar el crawleo de la siguiente forma:
User-agent: *
Disallow: /user/
La parte de user agent hace referencia al bot que le aplicamos la orden, si ponemos el * las directrices se aplicarán a todos los bots que entren en el sitio.
Disallow sirve para indicarle que no rastree esa determinada carpeta.
Un robots.txt básico para wordpress podría ser el siguiente:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Optimiza el WPO para mejorar el crawl budget
Otra parte importante que puede mejorar el crawl budget de forma indirecta es la optimización de la WPO, es decir, el rendimiento web. Para ello hay que tener en cuenta varios aspectos, algún ejemplo es:
- Compresión de imágenes
- TTFB. Tiempo que tarda la carga del primer byte de un sitio web en el navegador tras la petición al servidor.
- Minificar código del sitio web.
- Caché del navegador.
- Reducir peticiones al servidor
Herramientas para analizar el crawl Budget
Para facilitarnos el análisis del crawl Budget tenemos varias herramientas, algunas de las más populares son:
Log File Analyser de Screaming Frog
Gracias a esta funcionalidad de screaming frog podemos saber qué es lo que sucede cuando entra un robot de búsqueda en nuestro sitio. Algunos de los datos que nos aporta son:
- Saber cuáles son las urls que el bot puede rastrear y cuáles no.
- Frecuencia de rastreo del bot en nuestro sitio por cada url. Por lo que se pueden identificar las más y menos rastreadas.
- Descubrir enlaces rotos.
- Identificar las urls con peor velocidad de carga.
Seolyzer
Para utilizar esta herramienta, debemos obtener el fichero del log, e insertarla en la propia herramienta. Una vez hecho esto, empezaremos a recibir información sobre el crawleo del sitio. Tiene muchos apartados distintos, algunos de los más interesantes son:
Volumen de visitas de los crawlers: En este apartado veremos la cantidad de visitas de los bots por días, pudiendo identificar subidas o bajas inusuales, o la tendencia de rastreo a lo largo del tiempo.
Análisis de los códigos de estado: En este apartado no muestra de una manera muy clara los códigos de estado (200, 3XX,4XX, 5XX…) que ha devuelto nuestro sitio. Podremos ver a simple vista si tenemos una gran cantidad de errores, además de concretar cuáles son las urls que han devuelto dichos estados, lo que nos puede servir identificar errores.
Robots fake: Existen robots que pasan por nuestro sitio con diferentes intenciones, pudiendo no ser éstas muy positivas. En este apartado nos indicará cómo han rastreado estos robots el sitio y sus IP por si queremos bloquearlos.
Además, también podremos crear una categorización de páginas, por ejemplo del blog, paginación, servicios… para diferenciarlas y que a simple vista tengamos una clara visión de las diferencias de rastreo según el tipo de páginas.
Algunos de las demás secciones de la herramienta son:
- Peticiones mobile vs desktop
- Tiempo de carga medio por día.
- Páginas más rastreadas
En definitiva, es una buena herramienta para cualquier sitio web con un gran volumen de urls, ya que nos permitirá saber cómo los bots están rastreando nuestra web, y nos permitirá identificar errores y posibles mejoras.
Conclusiones
Si tienes un sitio web grande, debes analizar cómo googlebot está rastreando tu sitio web, e intentar optimizar el crawl budget para que Google rastree aquellas páginas realmente importantes. Existen herramientas que facilitan el análisis de los logs de una manera más sencilla, que van a facilitar este proceso de análisis.



Enrique Peiró es Seo Manager en Bloo Media.
Apasionado del marketing digital, y especializado en SEO.