robots.txt

Contactar con el profesor

Indica a que páginas tendrán acceso los motores de búsqueda y a a cuales no. Es mejor no tocarlo y si queremos que una página no sea indexada, hacerlo mediante los meta robots. Así evitaremos que una página que hemos bloqueado en el robots.txt sea indexada porque se nos olvidó poner la meta robot. Si esto ocurriese, estaríamos indexando una página con contenido vacío.

Debe estar en la raíz del sitio.

Ejemplo:
User-agent: *
Disallow: /backend/
Disallow: /tmp/
Sitemap: https://www.pablomonteserin.com/sitemap.xml

Los robots de cualquier motor de búsqueda (señalados con el carácter comodín *) que siguen las normas no indexarán el contenido bajo los directorio /backend/ ni cualquier URL que empiece por /tmp

Validador de nuestro robots.txt:
http://tool.motoricerca.info/robots-checker.phtml

Ejemplo largo de robots.txt

Estos son los los nombres de los crawlers más importantes:

  • Ask: Teoma
  • Bing: MSNbot
  • Google: Googlebot
  • Yahoo!: Slurp

Si deseamos bloquear ciertas páginas en algunos crawlers es necesario primero colocar las instrucciones para los crawlers y al último las instrucciones para todos los crawlers, como se muestra en el siguiente ejemplo:


User-agent: teoma
Disallow: /ask/
User-agent: msnbot
Disallow: /bing-no-es-novedoso/
Disallow: /bing-no-es-novedoso/aun-sin-gustarme.html
User-agent: googlebot
Disallow: /lo-feo-de-google/
User-agent: slurp
Disallow: /yahoo-no-me-gusta/
User-agent: *
Disallow: /privado/

Si colocamos al inicio las instrucciones para todos los crawlers, las demás instrucciones no serán leídas.

Debemos comprobar que existe un robots.txt que referencia al sitemap.xml (http://dominio.com/robots.txt)

robots.txt
User-agent: *
Disallow: /sites/ 
Disallow: /wp-login.php
Disallow: /apuntes/*.html$
Disallow: /*?filename=*&otroparametro=*
crawl-delay: 10
Sitemap: https://pablomonteserin.com/sitemap.xml
← Velocidad
Indexar / follow →

Aviso Legal | Política de privacidad