Antes de comenzar a explicar que es el archivo robots.txt y para que sirve, hay que tener claro a que se denomina «robot» en el ámbito del SEO.
Un robot, bot o araña (crawler) es un software que se encarga de rastrear las páginas web en busca de distintos aspectos característicos como contenido nuevo, cambios en la estructura web, enlaces, etc.
Hay muchos tipos de bots, pero hoy nos centraremos en concreto en los de Google y otros grandes buscadores, que nos ayudan a indexar el contenido de nuestra web y posicionarlo en sus resultados.
Una vez explicado esto, entremos a los detalles del archivo robots.txt.
¿Qué es el archivo robots.txt?
El robots.txt no es mas que un archivo de texto plano que puedes crear con un simple bloc de notas y al que se le asigna el nombre robots.txt ( aunque suene a obviedad 🙂 ).
Este archivo contiene indicaciones para el bot de Google y otros buscadores, y determina la manera en que queremos que rastreen las distintas partes y secciones de nuestra página web.
¿Para qué sirve el robots.txt?
Cuando un bot entra en nuestra página web, lo primero que hace es detectar si existe el archivo robots.txt y, si así es, lo analiza para saber qué partes de la web puede o debe rastrear e indexar.
A efectos del SEO de una página web, básicamente sirve para decirle al bot de Google qué contenido debe indexar y que contenido no.
Por ejemplo, es probable que existan carpetas que contengan archivos del sistema que no nos interesa mostrar en los resultados de Google (u otros buscadores) por lo que a través del robots.txt podemos restringir el acceso al crawler de Google.
Veamos algunos ejemplos del contenido que puede llevar un robots.txt:
Código 1:
User-agent: *
Disallow: /
Este código restringe el acceso de los bots a todo el contenido de una página web. El párametro User-agent se utiliza para especificar el bot de un buscador en particular. Para indicar que el parámetro aplica a todos los bots, lo indicamos con un asterisco. La instrucción Disallow restringe el acceso a una ruta. En este caso, haciendo un Disallow en /, los robots no pueden acceder a ningún contenido de la página web.
Código 2:
User-agent: *
Disallow:
En este caso, si dejamos el Disallow sin un parámetro concreto, los bots pueden acceder a cualquier contenido de la página.
Código 3:
User-agent: *
Disallow: /contacto.html
Disallow: /archivo.html
Este código se utilizaría en el caso de no querer que ningún bot pueda acceder al contenido de contacto.html y archivo.html. Ésta sería la manera de restringir el acceso de los bots a un contenido en particular, cuando no nos interese que dicho contenido se muestre en los resultados de búsqueda de Google u otros buscadores.
Para más información sobre robots.txt y sus usos, puedes visitar la siguiente página:
Ayuda de Search Console – Robots.txt
Comments are closed.