Archivo Robots.txt
Robots.TXT
Lo que hay que saber sobre el archivo Robots.txt
Restricciones más comunes

Con los comandos principales del llamado Robots Exclusion Protocol se puede crear todo tipo de restricciones, pero no es muy recomendable crear muchas restricciones y hacer pruebas, ya que se puede acabar bloqueando el acceso a partes de la página que no deseas sin darte cuenta, y evitar que los motores de búsqueda indexen correctamente tu sitio.

Algunas de las restricciones más comunes son las siguientes:

– Incluir todos los robotsUser-agent: *

– Especificar el robot de GoogleUser-agent: Googlebot

– Especificar el robot de BingUser-agent: Bingbot

– Denegar la entrada a todo el sitioDisallow: /

– Denegar la entrada a un directorioDisallow: /directorio/

– Denegar la entrada a directorios que comienzan por “x”Disallow: /x*/

Denegar la entrada a una página concretaDisallow: /pagina-web.htm

– Denegar la entrada a directorios y páginas que comienzan por “x”Disallow: /x

– Denegar el rastreo a archivos con la extensión .gifDisallow: /*.gif$

– Indicar a los robots que esperen 60 segundos entre cada acceso – Crawl-delay: 60

– Permitir a los buscadores indexar el sitio de 2 am a 7:45 am – Visit-time: 0200-0745

– Permitir a los buscadores indexar un documento cada 30 minutos  – Request-rate: 1/30m

– Permitir la entrada a un subdirectorioAllow: /directorio/subdirectorio/

– Señalar el mapa del sitioSitemap: http://www.example.com/sitemap.xml



Te puede interesar



© 2017 RobotsTXT.pro Contact & Privacy Contact

eXTReMe Tracker