#EscribirEnInternet

El fichero ‘robots.txt’

El fichero robots.txt es un sencillo archivo de texto en el que se establecen las pautas de indexación de un sitio para las diferentes arañas de búsqueda que recorren la red.

¿Qué es?

El fichero robots.txt es un sencillo archivo de texto en el que se establecen las recomendaciones de indexación de un sitio para las diferentes arañas de búsqueda que recorren la red.

Es decir, cuando una araña llega a un sitio web lo primero que hace es buscar este fichero en la raíz del web para saber qué páginas tiene que indexar y si existe alguna carpeta o parte del sitio que no debería recorrer.

Entre los servicios que permite y los beneficios que aporta este fichero están los siguientes:

  • Impedir el acceso a ciertas zonas de la web: la posibilidad de impedir que ciertos contenidos de la web sean indexados por los buscadores es uno de sus usos más habituales. De esta forma es posible evitar, por ejemplo, la recuperación de contenidos superfluos, como ficheros de logs (los que registran las entradas al sitio), o el acceso a contenidos duplicados, o impedir la recuperación de aquel contenido que no queremos que sea localizado directamente por el buscador. En todo caso, se ha de tener en cuenta que no sirve para evitar que las personas vean determinado contenido: si lo que queremos es tener una parte privada hay que emplear otras técnicas.
  • Impedir el acceso a todos o a determinados robots: en ocasiones, nos puede interesar impedir el acceso a todo el sitio web a ciertos robots de búsqueda. Por ejemplo, porque estemos trabajando en una versión de pruebas de nuestro sitio que no queremos que sea todavía visible.
  • Establecer la frecuencia de paso de los robots: recomendable en el caso de detectar que algún robot pueda llegar a saturar el servidor con excesivas solicitudes. Este comando no es válido para Googlebot, por lo que esta configuración se tendría que hacer desde Google Webmasters (www.google.com/webmasters/).
  • Indicar la ubicación del sitemap.xml: en este fichero también se puede indicar dónde se encuentra el mapa del sitio web (sitemap), un sistema ideado por Google y adoptado por los principales buscadores que permite indicar a estos las URL de todas las páginas de un sitio web.

¿Cómo se crea?

Existen diferentes herramientas que nos permiten generar de manera automática estos ficheros (http://www.mcanerin.com/EN/search-engine/robots-txt.asp,  www.google.com/webmasters/ —previo registro—, http://tools.seobook.com/robots-txt/generator), aunque conociendo sus parámetros básicos es realmente sencillo hacerlo uno mismo. A continuación mostramos algunos ejemplos de uso habitual de robots.txt:

  • Permitir el acceso a todas las páginas y a todos los buscadores:

User-agent: *
Disallow:

  • Impedir el acceso a toda la web de cualquier buscador:

User-agent: *
Disallow: /

  • Impedir el acceso a ciertas zonas de la web a cualquier buscador:

User-agent: *
Disallow: /logs

Disallow: /mail
Disallow: /pages/articulo-prueba.php

  • Impedir el acceso a ciertas carpetas o a toda la web a ciertos robots: las restricciones se hacen o con cada robot individualmente o con todos ellos, pero no podemos incluir varios robots en la misma línea de «user-agent». También se pueden utilizar operadores de truncamiento (*, ?)  para hacer más exhaustivo el comando, o el signo $ para establecer que el texto indicado debe aparecer al final de la URL (esto se utiliza sobre todo para señalar las extensiones que no se quiere que sean indexadas: por ejemplo «Disallow: /*.php$» para que el robot no indexe ningún fichero .php)

User-Agent: *
Disallow:

User-Agent: Googlebot-Mobile
Disallow: /images
Disallow: /logs

User-Agent: Googlebot-Image
Disallow: /*/image?
Disallow: /*.php$

  • Añadir el sitemap.xml

User-Agent: *
Disallow:

  • Indicar la frecuencia de paso a un robot (en segundos)

User-Agent: *
Disallow:

User-agent: Slurp
Crawl-delay: 30

Valora esta recomendación

1 Star2 Stars3 Stars4 Stars5 Stars

¡Hola!

¿Has buscado tu consulta?

Si no la encuentras, rellena nuestro formulario: