El robot txt son archivos de texto con los que se puede gestionar la navegación de los algoritmos de búsqueda de una página web. Solamente tienes que crear el documento y subirlo a la web para impedir que otros bots rastreen ciertos contenidos. 

¿No te gustaría contar con una herramienta que pudiera indicar a los rastreadores que partes de tu sitio web quieres que vean y a cuáles prefieres que no presten atención? Pues esto es precisamente lo que es robots txt.

 

Para qué sirve el archivo robots.txt

El archivo robots txt sirve principalmente para poder gestionar como acceden los rastreadores de los motores de búsqueda a tu sitio web. De esta forma, puedes hacer que Google rastree o no determinados archivos. Por lo tanto, la respuesta a para que sirve el archivo robots txt es que se utiliza para excluir robots de ciertas partes de tu web. Es decir, sirve para que algunas secciones de la página sean privadas y no se rastreen desde los motores de búsqueda. 

Limita el acceso a datos e información

Este archivo sirve para evitar que ciertos contenidos de tu web aparezcan en los resultados de búsqueda. Por lo tanto, puedes limitar el acceso a determinados datos. Por ejemplo, si crees que tu servidor puede sobrecargarse o si tienes páginas en tu web que no consideras que sea importante que indexen, etc. 

Oculta contenido multimedia en los resultados de Google

Como gestionas el trafico de los rastreadores, también puedes conseguir que las imágenes o videos no aparezcan en los resultados de los motores de búsqueda, aunque otras webs o usuarios pueden acceder a los enlaces. 

No muestra archivos de recursos al robot

También sirve para evitar que los bots de búsqueda accedan a ciertos contenidos o archivos de estil, como las imágenes, secuencias de comandos o estilos. Sin embargo, debes tener en cuenta que, si se trata de aspectos importantes para que la página pueda cargar, es posible que el análisis y los informes de tu página también se vean afectados. 

 

Cómo funciona la variedad de comandos de robots.txt

A través de diferentes comandos es cómo funciona robots txt.

User-agent

¿Quieres introducir una orden especifica en tu robot txt? Con el comando de user-agent puede indicar de forma exacta la clase de bot de búsqueda al que quieres limitar el acceso, ya sea de Google o de otra plataforma. 

Disallow

Con este comando podrás indicar qué páginas son las que no quieres que aparezcan en los resultados de búsqueda. Puede ser a una carpeta concreta o a determinado s contenidos, como, por ejemplo, los que incluyan una determinada palabra o empiecen por una determinada letra. 

Allow

Este es el comando contrario al anterior. Con este comando indicarás las páginas o directorios que sí que te interesa que indexen. 

Sitemap

Con este comando puedes indicar a los robots de los motores de búsqueda a conocer y reconocer las páginas de tu sitio web. Para ello, debes haber guardado previamente un archivo de sitemap en el sitio web. 

 

Cómo crear un archivo robots.txt

Si te preguntas como crear un archivo robots txt lo tienes muy fácil. Realmente puedes utilizar cualquier clase de editor de texto para poder crear archivos válidos. Lo único que debes hacer es guardar el documento con la codificación UTF-8 si te aparece la opción para guardarlo así. Además, asegúrate de que se llame “robots.txt” y de tener solamente uno por sitio. 

Acceso a la raíz del dominio

  1. Crea un fichero de texto
  2. Incluye los comandos deseados
  3. Accede a la carpeta raíz del dominio
  4. Sube el documento

Plugin de WordPress: Yoast SEO

Si quieres incluir tu archivo robots txt en  wordpress, la herramienta Yoast SEO te lo pone muy fácil. Solo tienes que seguir los siguientes pasos: 

  1. Entra en las herramientas del plugin
  2. Clica sobre «crear robots.txt»

Si quieres descubrir más plugins SEO para WordPress, te mostramos los más útiles y mejores valorados en nuestra publicación-

 

Qué probador ofrece Google para el archivo robots.txt

Con las herramientas de probador de robots txt puedes comprobar si realmente el archivo esta impidiendo a los robots de los motores de búsqueda acceder a ciertas urls de tu pagina web. Google te permite utilizar una herramienta concreta de probador de robots para comprobar los errores y las advertencias del sitio web. 

Search Console

A través de Search Console podrás comprobar la salud del sitio web, forzar el indexado de determinadas páginas y checkear si tu archivo robot txt. Realmente esta cumpliendo los resultados que esperas. 

 

Ejemplo de los archivos robots.txt

Un ejemplo robots txt sencillo es el siguiente: 

User-agent: Googlebot

Disallow: /ejemplo1/

Sitemap: https://www.ejemplo.com/sitemap.xml

En este caso estas indicando que no quieres que Google rastree ninguna página de tu sitio web que comience por:  https://www.ejemplo.com/ejemplo1/

Además, estas indicando que el archivo de sitemap de la web esta en : https://www.ejemplo.com/sitemap.xml

Si necesitas ayuda para el posicionamiento de tu web, puedes contactar con los especialistas de nuestra agencia de posicionamiento SEO en Madrid.

Preguntas frecuentes sobre que es robots txt

¿Qué es un archivo robots.txt y para qué se utiliza?

El archivo robots.txt es un archivo de texto que los webmasters utilizan para dar instrucciones a los robots de los motores de búsqueda sobre qué páginas o secciones de su sitio web deben ser rastreadas o ignoradas. Es fundamental para controlar el acceso de los robots de búsqueda y optimizar el rastreo del sitio.

¿Cómo puede afectar el archivo robots.txt a mi estrategia de SEO?

Un archivo robots.txt mal configurado puede impedir que los motores de búsqueda rastreen e indexen páginas importantes de tu sitio web, afectando negativamente tu visibilidad y posicionamiento en los resultados de búsqueda. Por otro lado, un uso correcto puede mejorar la eficiencia del rastreo y priorizar el contenido más relevante.

¿Dónde debo colocar el archivo robots.txt en mi sitio web?

El archivo robots.txt debe estar ubicado en el directorio raíz de tu sitio web. Por ejemplo, si tu sitio web es www.ejemplo.com, la URL del archivo robots.txt será www.ejemplo.com/robots.txt. Esto asegura que los motores de búsqueda puedan encontrarlo fácilmente.

¿Puedo usar robots.txt para mejorar la indexación de mi sitio web?

Sí, mediante la correcta configuración del archivo robots.txt, puedes guiar a los motores de búsqueda para que se enfoquen en indexar las páginas más importantes y relevantes de tu sitio, evitando gastar recursos en páginas que no deseas que aparezcan en los resultados de búsqueda.

¿Qué instrucciones puedo incluir en un archivo robots.txt?

Las instrucciones más comunes son "Disallow", que le dice a los motores de búsqueda qué páginas o secciones no deben rastrear, y "Allow", que se utiliza para permitir el acceso a contenido dentro de áreas previamente desautorizadas. También puedes especificar instrucciones para robots específicos utilizando su User-Agent.

¿Es posible bloquear completamente mi sitio web de los motores de búsqueda con un archivo robots.txt?

Sí, aunque no es recomendable a menos que quieras que tu sitio sea completamente privado. Puedes hacerlo utilizando la directiva "Disallow: /", que impide el acceso a todo el sitio web.

¿Cómo puedo verificar si mi archivo robots.txt está funcionando correctamente?

Puedes utilizar la herramienta de prueba de robots.txt disponible en Google Search Console. Esta herramienta te permite verificar si tus directivas están bloqueando o permitiendo el acceso a los motores de búsqueda como lo deseas.

¿Qué errores comunes debo evitar al crear un archivo robots.txt?

Los errores comunes incluyen bloquear contenido importante sin darse cuenta, utilizar sintaxis incorrecta, olvidar actualizar el archivo después de realizar cambios en la estructura del sitio, y no especificar directivas para los robots de búsqueda adecuados.

¿Puedo utilizar robots.txt para evitar el contenido duplicado?

Mientras que robots.txt puede prevenir que los motores de búsqueda rastreen contenido duplicado, no es la solución más efectiva porque no elimina la posibilidad de indexación indirecta. Es mejor utilizar etiquetas canonical para manejar el contenido duplicado.

¿Qué sucede si no tengo un archivo robots.txt en mi sitio web?

Si no tienes un archivo robots.txt, los motores de búsqueda asumirán que pueden rastrear e indexar todas las partes de tu sitio web. Aunque esto no es necesariamente malo, perderás el control sobre qué contenido se rastrea e indexa.

¿Cómo puedo permitir que todos los robots accedan a mi sitio excepto uno?

Puedes permitir el acceso a todos los robots utilizando la directiva "User-agent: *", seguido de "Disallow:" para especificar cualquier área que quieras restringir. Luego, para bloquear un robot específico, puedes agregar una sección adicional con "User-agent: [nombre del robot]" y usar "Disallow: /" para bloquear todo el sitio solo para ese robot.

¿Actualizar mi archivo robots.txt afectará mi ranking en los motores de búsqueda?

Modificar tu archivo robots.txt puede afectar cómo los motores de búsqueda rastrean e indexan tu sitio, lo cual a su vez puede influir en tu visibilidad y ranking. Sin embargo, los cambios positivos, como optimizar el rastreo para enfocarse en contenido relevante, pueden mejorar tu SEO.

¿Cuánto tiempo tardan los motores de búsqueda en reconocer los cambios en mi archivo robots.txt?

Los motores de búsqueda deben volver a rastrear tu archivo robots.txt para reconocer los cambios. Este proceso puede variar desde unas pocas horas hasta varios días, dependiendo de la frecuencia con la que rastrean tu sitio.

¿Puedo especificar directivas de robots.txt para diferentes partes de mi sitio?

Sí, puedes crear directivas específicas para diferentes secciones o páginas de tu sitio utilizando la directiva "Disallow" para bloquear o la directiva "Allow" para permitir el acceso a esas áreas particulares.

¿Existen herramientas para generar un archivo robots.txt?

Hay varias herramientas en línea que pueden ayudarte a generar un archivo robots.txt, asegurando que la sintaxis sea correcta y que esté optimizado para tus necesidades específicas de SEO. Estas herramientas pueden ser especialmente útiles para principiantes o para quienes gestionan sitios web complejos