Archivo Robots.txt
Robots.TXT
Lo que hay que saber sobre el archivo Robots.txt
Comandos principales de robots.txt

Cuando un robot busca el archivo "/robots.txt" para la URL, quita el componente de la ruta de la URL (todo desde la primera barra individual) y pone "/robots.txt" en su lugar.

Por ejemplo, para "http://www.example.com/shop/index.html, eliminará" /shop/index.html "y lo reemplazará con" /robots.txt ", y terminará con "http://www.example.com/robots.txt".

 

Por lo tanto, como propietario de un sitio web necesita para ponerlo en el lugar correcto en su servidor web para que la URL resultante sea la adecuada. Normalmente, ese es el mismo lugar donde se pone la página principal de inicio de su sitio web "index.html". Dónde está exactamente eso, y cómo poner el archivo allí, depende de su software del servidor.

 

El archivo "/robots.txt" es un archivo de texto, con uno o más registros. Por lo general, contiene un único registro que se ve así:

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

En este ejemplo, se excluyen tres directorios.

 

Tenga en cuenta que necesita una línea separada "Disallow" para cada prefijo de URL que desea excluir (no puede decir "Disallow: / cgi-bin / / tmp /" en una sola línea). Además, es posible que no tenga líneas en blanco en un registro, ya que se utilizan para delimitar varios registros.

 

Lo que desea excluir depende de su servidor. Todo lo que no está explícitamente desautorizado se considera juego justo para recuperar.

 

Comandos principales para Robots.txt

Los comandos más importantes son:

– User-agent. En él indicamos qué robot debe cumplir con las directivas detalladas a continuación.

– Disallow. Para indicar que denegamos el acceso a un directorio o página.

– Allow. Para indicar que permitimos el acceso a un directorio o página concreta.

– Sitemap. Ruta donde se encuentra el mapa del sitio

– Crawl-delay. Para indicar al robot que espere un número de segundos entre cada página. Muy útil para reducir la carga del servidor.

– * (asterisco). Se utiliza para indicar "todos".

– $ (dólar). Para indicar el final de una dirección url.

 

 

Ejemplos de archivos Robots.txt

 

Para excluir todos los robots de todo el servidor:

User-agent: *

Disallow: /

 

Permitir a todos los robots acceso completo:

User-agent: *

Disallow:

(O simplemente crear un archivo vacío "/robots.txt", o no usar ninguno)

 

Para excluir todos los robots de parte del servidor

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /junk/

 

Para excluir un solo robot

User-agent: BadBot

Disallow: /

 

Para permitir a un solo robot, excluir todos los archivos excepto uno:

User-agent: Google

Disallow:

 

User-agent: *

Disallow: /

 

Alternativamente, puede rechazar explícitamente todas las páginas no permitidas:

User-agent: *

Disallow: /~joe/junk.html

Disallow: /~joe/foo.html

Disallow: /~joe/bar.html

 



Te puede interesar



© 2017 RobotsTXT.pro Contact & Privacy Contact

eXTReMe Tracker