Archivo Robots.txt
Robots.TXT
Lo que hay que saber sobre el archivo Robots.txt
Cómo crear un archivo Robots.txt

Colocar un archivo robots.txt en la raíz de su dominio le permite detener los motores de búsqueda que indexan archivos y directorios sensibles. Por ejemplo, puede impedir que un motor de búsqueda rastree su carpeta de imágenes o indexe un archivo PDF que se encuentra en una carpeta secreta.

 

Los buscadores principales seguirán las reglas que establezca.

Tenga en cuenta, sin embargo, que las reglas que define en su fichero robots.txt no se pueden aplicar a todos los buscadores. Los rastreadores de software malintencionado y los motores de búsqueda alternativos pueden no cumplir con sus reglas e indexar lo que quieran. Afortunadamente, los principales motores de búsqueda siguen el estándar, incluyendo Google, Bing, Yandex, Ask y Baidu.

 

Cómo crear un archivo Robots.txt

Crear un archivo robots.txt solo requiere unos segundos. Si lo desea, puede usar nuestro generador de Robots.txt, o bien seguir los siguientes pasos:

1. Abrir un editor de texto y guardar un archivo en blanco como robots.txt.

2. Una vez que haya añadido algunas reglas al archivo, guarde el archivo y cárguelo en la raíz de su dominio, es decir www.yourwebsite.com/robots.txt. Asegúrese de cargar robots.txt en la raíz de su dominio.

 

Los motores de búsqueda buscarán un archivo robots.txt en la raíz de su dominio siempre que rastreen su sitio web. Tenga en cuenta que un archivo separado de robots.txt tendrá que ser configurado para cada subdominio y para otros protocolos como https://www.yourwebsite.com.

 

Reglas Básicas del Estándar de Exclusión de Robots

No toma mucho tiempo para obtener una comprensión completa del estándar de exclusión de robots, ya que sólo hay unas pocas reglas que aprender.

— El archivo consta de uno o más registros separados por una o más líneas en blanco.

— Los comentarios se pueden incluir en el archivo en el archivo Robots.txt con el carácter '#'. Se introduce '#' para indicar que el resto de caracteres hasta la terminación de línea se descarta. Las líneas que contienen sólo un comentario se descartan completamente y, por lo tanto, no indican un límite de registro.

— El registro comienza con una o más líneas de User-agent, seguidas por una o más líneas de Disallow, como se detalla a continuación. Los encabezados no reconocidos se ignoran.

 

Estas reglas suelen denominarse directivas.

Las dos directivas principales de la norma son:

 

— User-agent: Define el motor de búsqueda al que se aplicará la regla o las reglas. 

Si hay más de un campo de agente de usuario, el registro describe una política de acceso idéntica para más de un robot. Por lo menos un campo debe estar presente por registro.

El robot debe ser liberal en la interpretación de este campo. Se recomienda una coincidencia de subcadena con distinción entre mayúsculas y minúsculas del nombre sin información de versión.

Si el valor es '*', el registro describe la política de acceso predeterminada para cualquier robot que no haya coincidido con ninguno de los otros registros. No se permite tener múltiples registros de este tipo en el archivo "/robots.txt".

 

— Disallow: aconseja a un motor de búsqueda que no rastree e indexe un archivo, una página, un directorio o una dirección parcial.

Por ejemplo, “Disallow: / help” evita el acceso tanto a “/help.html” como a “/help/index.html”, mientras que “Disallow: / help /” evita el acceso a “help/index.html” pero lo permite para “/help.html”.

Cualquier valor vacío, indica que todas las URL se pueden cargar. Al menos un campo Disallow debe estar presente en un registro.

 

Un asterisco (*) se puede utilizar como comodín con User-agent para referirse a todos los motores de búsqueda. Por ejemplo, podría agregar lo siguiente al archivo robots.txt de su sitio web para impedir que los motores de búsqueda rastreen todo su sitio web.

 

User-agent: *

Disallow: /

 

La directiva anterior es útil si está desarrollando un nuevo sitio web y no desea que los motores de búsqueda indexen su sitio web incompleto.

 

Consulte también:

Comandos principales de robots.txt

Restricciones más comunes



Te puede interesar



© 2017 RobotsTXT.pro Contact & Privacy Contact

eXTReMe Tracker