Robots.txt wordpress
Robots.txt es un archivo de texto que los webmasters crean para instruir a los robots de la web (normalmente los robots de los motores de búsqueda) sobre cómo rastrear las páginas de su sitio web. El archivo robots.txt forma parte del protocolo de exclusión de robots (REP), un grupo de normas web que regulan el modo en que los robots rastrean la web, acceden al contenido y lo indexan, y sirven ese contenido a los usuarios. El REP también incluye directivas como los meta robots, así como instrucciones para la página, el subdirectorio o el sitio sobre cómo los motores de búsqueda deben tratar los enlaces (como “follow” o “nofollow”).
En la práctica, los archivos robots.txt indican si ciertos agentes de usuario (software de rastreo web) pueden o no rastrear partes de un sitio web. Estas instrucciones de rastreo se especifican “desautorizando” o “permitiendo” el comportamiento de ciertos agentes de usuario (o de todos).
En un archivo robots.txt con múltiples directivas de agentes de usuario, cada regla de desautorización o autorización sólo se aplica a los agentes de usuario especificados en ese conjunto particular separado por saltos de línea. Si el archivo contiene una regla que se aplica a más de un agente de usuario, un rastreador sólo prestará atención (y seguirá las directivas) al grupo de instrucciones más específico.
Sitemap en robots txt
Robots.txt ayuda a controlar el rastreo de los robots de los motores de búsqueda. Además, el archivo robots. txt puede contener una referencia al sitemap XML para informar a los rastreadores sobre la estructura de URL de un sitio web. Las subpáginas individuales también pueden excluirse de la indexación utilizando la etiqueta meta robots y, por ejemplo, el valor noindex.
El llamado “Protocolo estándar de exclusión de robots” se publicó en 1994. Este protocolo establece que los robots de los motores de búsqueda (también: agente de usuario) buscan primero un archivo llamado “robots.txt” y leen sus instrucciones antes de comenzar la indexación. Por lo tanto, es necesario archivar un archivo robots.txt en el directorio raíz del dominio con este nombre exacto en minúsculas, ya que la lectura del texto de los robots distingue entre mayúsculas y minúsculas. Lo mismo se aplica a los directorios en los que se anota el robots.txt.
Cada archivo consta de dos bloques. En primer lugar, el creador especifica para qué agente(s) de usuario deben aplicarse las instrucciones. A continuación, hay un bloque con la introducción “Disallow”, tras el cual se pueden enumerar las páginas que deben excluirse de la indexación. Opcionalmente, el segundo bloque puede consistir en la instrucción “allow” para complementarlo con un tercer bloque “disallow” para especificar las instrucciones.
Exclusión de robots.txt
El estándar de exclusión de robots, también conocido como protocolo de exclusión de robots o simplemente robots.txt, es un estándar utilizado por los sitios web para comunicarse con los rastreadores web y otros robots web. El estándar especifica cómo informar al robot web sobre qué áreas del sitio web no deben ser procesadas o escaneadas. Los robots suelen ser utilizados por los motores de búsqueda para clasificar los sitios web. No todos los robots cooperan con la norma; los recolectores de correo electrónico, los spambots, los programas maliciosos y los robots que escanean en busca de vulnerabilidades de seguridad pueden incluso empezar con las partes del sitio web en las que se les ha dicho que se mantengan al margen. La norma puede utilizarse junto con los sitemaps, una norma de inclusión de robots en los sitios web.
El estándar fue propuesto por Martijn Koster,[1][2] cuando trabajaba para Nexor[3] en febrero de 1994[4] en la lista de correo www-talk, el principal canal de comunicación para las actividades relacionadas con la WWW en aquella época. Charles Stross afirma haber provocado a Koster para que sugiriera robots.txt, después de que escribiera un rastreador web de mal comportamiento que provocó inadvertidamente un ataque de denegación de servicio al servidor de Koster[5].
Subdominio robots txt
El uso de un archivo robots.txt en su sitio web es un estándar web. Las arañas buscan el archivo robots.txt en el directorio anfitrión (o carpeta principal) de su sitio web. Este archivo de texto siempre se llama “robots.txt”. Puede encontrar su archivo robots.txt en la página web:
La mayoría de las arañas principales cumplen con las instrucciones especificadas en los archivos robots.txt, pero las arañas nefastas pueden no hacerlo. El contenido de los archivos robots.txt es de acceso público. Puede intentar prohibir las arañas no deseadas editando el archivo .htaccess asociado a su sitio web.
Es importante que los profesionales del marketing comprueben su archivo robots.txt para asegurarse de que se invita a los motores de búsqueda a rastrear las páginas importantes. Si pide a los motores de búsqueda que no rastreen su sitio web, éste no aparecerá en los resultados de búsqueda.
También puede especificar un retardo de rastreo, es decir, cuántos segundos deben esperar los robots antes de recoger más información. Algunos sitios web pueden necesitar utilizar esta configuración si los robots están consumiendo el ancho de banda y haciendo que su sitio web se cargue más lentamente para los visitantes humanos.
No permitir: /ebooks/*.pdf – Junto con la primera línea, este enlace significa que todos los rastreadores web no deben rastrear ningún archivo pdf en la carpeta ebooks dentro de este sitio web. Esto significa que los motores de búsqueda no incluirán estos enlaces directos a PDF en los resultados de búsqueda.