Cualquier consultor SEO sabe que son muchas las páginas de nuestro proyectos que queremos evitar que google rastree o indexe. Los motivos son diversos pero uno de los más habituales es el de no malgastar nuestro crawl budget. ¿Qué es el crawl budget? Para no alargarme en exceso en este post os invito a que visitéis el enlace de un artículo en el blog de Websystem en el que se explica detalladamente lo que es, cómo funciona y cómo podemos optimizarlo.(Ir al post de crawl budget).
Pero bueno, volviendo al tema que nos ocupa. Estábamos hablando de cómo evitar que Google y el resto de buscadores, indexen o rastreen algunas de las páginas de nuestros proyectos.
Table of Contents
Consultor SEO: Cómo bloquear el contenido de nuestra web
Para hacerlo, podemos recurrir a una de las siguientes opciones:
- El archivo robots.txt
- La etiqueta META name=»robots»
Aquellos que trabajáis de consultor SEO o que contáis con conocimientos avanzados de estrategias de posicionamiento, no es necesario que sigáis leyendo, pero para el resto… es posible que aclaréis algunas dudas o incluso que aprendáis algo nuevo.
Pero primero que nada veamos cuáles son las diferencias entre rastreo e indexación. Una vez que tengamos esto claro nos resultará más sencillo comprender y saber qué opción nos interesa más para cada situación.
Diferencias entre indexación y rastreo:
Indexación:
Cuando hablamos de indexar nos referimos a que Google incluya o no en el índice que tendrá en consideración para mostrar en las SERP, las páginas en cuestión. En resumen. Si la indexa la mostrará cuando se produzca una búsqueda relacionada y si no la indexa, pues NO. Así de simple.
Rastreo:
Cuando nos referimos al rastreo, lo que hacemos es permitir o no que las arañas sigan los enlaces de nuestra página.
Una vez que ya tenemos claras las diferencias, veamos qué conseguimos con la utilización de cada una de las dos opciones que os he indicado:
Utilización del archivo robots.txt
Cuando ponemos un Disallow en una página o directorio de nuestro sitio web, lo que estamos haciendo es cortarle el acceso a Google. Le estamos indicando que no queremos ni que rastree ni que indexe. Esta es una opción muy restrictiva porque si no puede acceder, no conocerá el contenido de las mismas y por lo tanto no verá los enlaces que tengamos en ella. Por supuesto que podemos utilizar esta opción, pero tenemos que tener claro donde y cuando.
Ejemplo para WordPress:
User-agent: * Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /wp-includes/ Disallow: /wp-admin/
Utilización de la etiqueta META “robots”
Cuando usamos esta etiqueta <META name=»robots»…> en una página determinada de nuestra web, lo que hacemos es indicarle al motor de búsqueda, que indexe o no la página y que la restree o no. Si la indexa aparecerá en los resultados que muestre y si las rastrea conocerás sus enlaces.
Pero, ¿qué metaetiquetas utlizamos para indicarle qué es lo que debe de hacer?
Para la indexación utilizamos “index” y “noindex”.
Para el rastreo utilizamos “follow” y “nofollow”
Ahora que ya tenemos los parámetros, veamos cuáles son nuestras posibilidades.
- Permitir el rastreo y la indexación de la página. Esto es lo que haría por defecto si no le decimos lo contrario.
<meta name”robots” content=”index, follow”>
- Permitir la indexación de la página pero no el rastreo de los enlaces que encuentre. Esta opción es la ideal si contamos con una página en la que son los usurarios los que añaden contenido y algún enlace. Con ella hacemos que no se traspase nuestro link juice.
<meta name”robots” content=”index, nofollow”>
- Bloquear la indexación de la página y por lo tanto su aparición en las SERPS pero SÍ que permitimos que la rastree con lo que el link juice se traspasará.
<meta name”robots” content=”noindex, follow”>
- Bloquearlo todo. Sería lo mismo que ponere un Disallow en en el robots.txt
<meta name”robots” content=”noindex, nofollow”>
En resumen: Cuándo es mejor utilizar cada opción
Usaremos la etiqueta META cuando queramos que se indexe la página pero no se rastree o bien cuando queramos que siga los enlaces pero no indexe la página.
Cuando queremos que se indexe pero no se rastreen los enlaces, o bien que no se indexe pero si se sigan los enlaces de la página, la única opción será utilizar la etiqueta <META name=”robots”…>.
Usaremos el archivo robots.txt cuando queramos impedir a Google tanto el rastreo como la indexación. Con esto le estaremos facilitando el trabajo que es lo que nos va a resultar más rentable, por aquello de presupuesto de rastro… ¿os acordáis?
Espero que os haya gustado el artículo o al menos que sirva para tener clara cuál es la diferencia entre usar una opción u otra y os invito a que visitéis mi blog dónde encontraréis otras noticias y trucos relacionados con el posicionamiento SEO.