Conoce qué es y todas las respuestas sobre el archivo robots.txt. Aquí sabras dónde se encuentra, cómo leerlo, crearlo, modificarlo, anadirlo al sitemap y un ejemplo de robots.txt para WordPress.
¿Qué son los robots txt?
Un archivo robots. txt indica a los rastreadores de los buscadores a qué URLs de tu sitio pueden acceder. Principalmente, se utiliza para evitar que las solicitudes que recibe tu sitio lo sobrecarguen; no es un mecanismo para impedir que una página web aparezca en Google.
¿Dónde se encuentra el archivo robots txt?
Un archivo «robots. txt» es generado automáticamente y puedes acceder a el agregando «robots. txt» al final del nombre de tu sitio web por ejemplo https://pagina.mx/robots.txt .
¿Cómo leer robots txt?
Abre el probador de la página web y desplázate por el código del archivo robots.txt para determinar las advertencias de sintaxis y errores de lógica. En la parte inferior podrás ver el número de errores detectados en el archivo.
- Inserta en la barra inferior una url de tu página web.
- Selecciona en el cuadro situado junto a URL el user agent. Por ejemplo, Googlebot.
- Haz clic en el botón “probar” para iniciar la prueba.
- Comprueba si el botón “probar” indica “aceptada” o “bloqueda” para saber si los rastreadores de Google pueden acceder a la URL introducida
- Edita el archivo y ejecuta la prueba de nuevo, si es necesario. Nota: Los cambios que realices en la página no se almacenan en el sitio.
- Añade los cambios en el archivo robots.txt de tu página web, para que queden guardados.
¿Cómo crear un archivo robots txt?
Para crear un archivo robots.txt y hacer que sea accesible y útil, hay que seguir cuatro pasos:
¿Cómo modificar el archivo robots txt en WordPress?
El modo más sencillo de modificar el archivo robots. txt es mediante Yoast SEO. Una vez que instales y actives el plugin, busca la opción ‘Editor de archivos’ en la pestaña ‘SEO > Herramientas’ de tu escritorio. Al clicar en ese enlace te dirigirá a una nueva página, donde podrás editar tu archivo
¿Qué significa blocked by robots txt?
Bloqueado por robots. txt. Esto significa que tienes contenido bloqueado por robots.
Ubica la URL de tu sitemap XML
Si tu sitio web ha sido desarrollado por un desarrollador externo, primero debes verificar si han creado un sitemap XML para tu sitio.
Localiza tu archivo Robots.txt
Puedes verificar si tu sitio web tiene un archivo robots.txt escribiendo /robots.txt después de tu dominio). Recuerda escribir las letras del nombre de archivo del robots.txt en minúsculas. No uses Robots.TXT o Robots.Txt como nombre de archivo.
Agrega la ubicación del sitemap XML al archivo Robots.txt
Abre el archivo robots.txt en la raíz de tu sitio. Para facilitar el descubrimiento automático de tu archivo de sitemap XML a través de tu robots.txt, todo lo que tienes que hacer es colocar una directiva con la URL en tu robots.txt, como se muestra en el ejemplo a continuación:
Ejemplo
Sitemap: http://tudominio.com/sitemap.xml
Entonces, el archivo robots.txt se ve así:
Sitemap: http://tudominio/sitemap.xml
User-agent:*
Disallow:
Ejemplo de robots.txt recomendado para WordPress
Este robots fue diseñado para mejorar la seguridad de un WordPress y está basado en el proyecto WPHardening que es una herramienta para fortificar WordPress desde la consola de comandos.
Sitemap: http://example.org/sitemap.xml
User-Agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /trackback/
Disallow: /?s=
Disallow: /search
Disallow: /archives/
Disallow: /index.php
Disallow: /*?
Disallow: /*.php$
Disallow: /*.inc$
Disallow: */trackback/
Disallow: /page/
Disallow: /tag/
Disallow: /category/
# No rastrear copias de seguridad
Disallow: /*.git$
Disallow: /*.sql$
Disallow: /*.tgz$
Disallow: /*.gz$
Disallow: /*.tar$
Disallow: /*.svn$
Disallow: /*.bz2$
Disallow: /*.log$
# No rastrear enlaces de WooCommerce
User-agent: *
Disallow: /*add-to-cart=*
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
# Reglas para bots conocidos
User-agent: ia_archiver
Disallow: /
User-agent: duggmirror
Disallow: /
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
Aquí te dejo un vídeo de John Muller hablando sobre archivos especiales en el robots.txt