Por 9.99€ al mes tendrás acceso completo a todos los cursos. Sin matrícula ni permanencia.
Indica a que páginas tendrán acceso los motores de búsqueda y a a cuales no. Es mejor no tocarlo y si queremos que una página no sea indexada, hacerlo mediante los meta robots. Así evitaremos que una página que hemos bloqueado en el robots.txt sea indexada porque se nos olvidó poner la meta robot. Si esto ocurriese, estaríamos indexando una página con contenido vacío.
Debe estar en la raíz del sitio.
Ejemplo:
User-agent: *
Disallow: /backend/
Disallow: /tmp/
Sitemap: http://www.pablomonteserin.com/sitemap.xml
Los robots de cualquier motor de búsqueda (señalados con el carácter comodín *) que siguen las normas no indexarán el contenido bajo los directorio /backend/ ni cualquier URL que empiece por /tmp
Validador de nuestro robots.txt:
http://tool.motoricerca.info/robots-checker.phtml
Ejemplo largo de robots.txt
Estos son los los nombres de los crawlers más importantes:
- Ask: Teoma
- Bing: MSNbot
- Google: Googlebot
- Yahoo!: Slurp
Si deseamos bloquear ciertas páginas en algunos crawlers es necesario primero colocar las instrucciones para los crawlers y al último las instrucciones para todos los crawlers, como se muestra en el siguiente ejemplo:
User-agent: teoma
Disallow: /ask/
User-agent: msnbot
Disallow: /bing-no-es-novedoso/
Disallow: /bing-no-es-novedoso/aun-sin-gustarme.html
User-agent: googlebot
Disallow: /lo-feo-de-google/
User-agent: slurp
Disallow: /yahoo-no-me-gusta/
User-agent: *
Disallow: /privado/
Si colocamos al inicio las instrucciones para todos los crawlers, las demás instrucciones no serán leídas.
Debemos comprobar que existe un robots.txt que referencia al sitemap.xml (http://dominio.com/robots.txt)
robots.txt
User-agent: *
Disallow: /sites/
Disallow: /wp-login.php
Disallow: /apuntes/*.html$
Disallow: /*?filename=*&otroparametro=*
crawl-delay: 10
Sitemap: https://pablomonteserin.com/sitemap.xml