Conoce qué es y todas las respuestas sobre el archivo robots.txt. Aquí sabras dónde se encuentra, cómo leerlo, crearlo, modificarlo, anadirlo al sitemap y un ejemplo de robots.txt para WordPress.

¿Qué son los robots txt?

Un archivo robots. txt indica a los rastreadores de los buscadores a qué URLs de tu sitio pueden acceder. Principalmente, se utiliza para evitar que las solicitudes que recibe tu sitio lo sobrecarguen; no es un mecanismo para impedir que una página web aparezca en Google.

¿Dónde se encuentra el archivo robots txt?

Un archivo «robots. txt» es generado automáticamente y puedes acceder a el agregando «robots. txt» al final del nombre de tu sitio web por ejemplo https://pagina.mx/robots.txt .

¿Cómo leer robots txt?

Abre el probador de la página web y desplázate por el código del archivo robots.txt para determinar las advertencias de sintaxis y errores de lógica. En la parte inferior podrás ver el número de errores detectados en el archivo.

  • Inserta en la barra inferior una url de tu página web.
  • Selecciona en el cuadro situado junto a URL el user agent. Por ejemplo, Googlebot.
  • Haz clic en el botón “probar” para iniciar la prueba.
  • Comprueba si el botón “probar” indica “aceptada” o “bloqueda” para saber si los rastreadores de Google pueden acceder a la URL introducida
  • Edita el archivo y ejecuta la prueba de nuevo, si es necesario. Nota: Los cambios que realices en la página no se almacenan en el sitio.
  • Añade los cambios en el archivo robots.txt de tu página web, para que queden guardados.

¿Cómo crear un archivo robots txt?

Para crear un archivo robots.txt y hacer que sea accesible y útil, hay que seguir cuatro pasos:

¿Cómo modificar el archivo robots txt en WordPress?

El modo más sencillo de modificar el archivo robots. txt es mediante Yoast SEO. Una vez que instales y actives el plugin, busca la opción ‘Editor de archivos’ en la pestaña ‘SEO > Herramientas’ de tu escritorio. Al clicar en ese enlace te dirigirá a una nueva página, donde podrás editar tu archivo

¿Qué significa blocked by robots txt?

Bloqueado por robots. txt. Esto significa que tienes contenido bloqueado por robots.

Ubica la URL de tu sitemap XML

Si tu sitio web ha sido desarrollado por un desarrollador externo, primero debes verificar si han creado un sitemap XML para tu sitio.

Localiza tu archivo Robots.txt

Puedes verificar si tu sitio web tiene un archivo robots.txt escribiendo /robots.txt después de tu dominio). Recuerda escribir las letras del nombre de archivo del robots.txt en minúsculas. No uses Robots.TXT o Robots.Txt como nombre de archivo.

Agrega la ubicación del sitemap XML al archivo Robots.txt

Abre el archivo robots.txt en la raíz de tu sitio. Para facilitar el descubrimiento automático de tu archivo de sitemap XML a través de tu robots.txt, todo lo que tienes que hacer es colocar una directiva con la URL en tu robots.txt, como se muestra en el ejemplo a continuación:

Ejemplo

Sitemap: http://tudominio.com/sitemap.xml

Entonces, el archivo robots.txt se ve así:

Sitemap: http://tudominio/sitemap.xml

User-agent:*

Disallow:

Ejemplo de robots.txt recomendado para WordPress

Este robots fue diseñado para mejorar la seguridad de un WordPress y está basado en el proyecto WPHardening que es una herramienta para fortificar WordPress desde la consola de comandos.

Sitemap: http://example.org/sitemap.xml 

 

User-Agent: *

Allow: /wp-admin/admin-ajax.php

Disallow: /wp-admin/

Disallow: /trackback/

Disallow: /?s=

Disallow: /search

Disallow: /archives/

Disallow: /index.php

Disallow: /*?

Disallow: /*.php$

Disallow: /*.inc$

Disallow: */trackback/

Disallow: /page/

Disallow: /tag/

Disallow: /category/

 

# No rastrear copias de seguridad

Disallow: /*.git$

Disallow: /*.sql$

Disallow: /*.tgz$

Disallow: /*.gz$

Disallow: /*.tar$

Disallow: /*.svn$

Disallow: /*.bz2$

Disallow: /*.log$

 

# No rastrear enlaces de WooCommerce

User-agent: *

Disallow: /*add-to-cart=*

Disallow: /cart/

Disallow: /checkout/

Disallow: /my-account/

# Reglas para bots conocidos

User-agent: ia_archiver

Disallow: /

 

User-agent: duggmirror

Disallow: /

 

User-agent: noxtrumbot

Crawl-delay: 50

 

User-agent: msnbot

Crawl-delay: 30

 

User-agent: Slurp

Crawl-delay: 10

 

User-agent: MSIECrawler

Disallow: /

 

User-agent: WebCopier

Disallow: /

 

User-agent: HTTrack

Disallow: /

 

User-agent: Microsoft.URL.Control

Disallow: /

 

User-agent: libwww

Disallow: /

Aquí te dejo un vídeo de John Muller hablando sobre archivos especiales en el robots.txt