Archivo Robots.txt y SEO: ¿Qué mejores prácticas?

Robots.txt denota un Archivo de texto que permite al webmaster o administrador de un sitio web decirle a los robots de los motores de búsqueda (también llamados rastreadores) qué información están autorizados a analizar. Es exclusivamente para indexar robots, no prohíbe el acceso de una página o un directorio a un usuario de Internet.

El origen del archivo robots.txt

Atribuimos la autoría de este archivo a Martin Koster que trabajaba para Webcrawler en 1994. En ese momento, se trataba de regular el rastreo de los robots, actividad que tenía la facultad de provocar una serie de inconvenientes, como el guión activación y planificación del servidor.

¿Cuál es el vínculo entre robots.txt y SEO?

La referenciación de un sitio web no es posible sin la exploración de los contenidos por parte de los robots de los motores. Al darles instrucciones a través de este archivo, esencialmente puede explicarles que no están destinados a estar interesados ​​en contenido que usted cree que no agregaría valor a los resultados de Google, Bing o Yahoo.

¿La creación de robots.txt garantiza un mejor SEO?

En 2017, este mismo motor se comunicó sobre este tema. La facilidad de rastreo no es un criterio de relevancia de su algoritmo, el efecto en el SEO por lo tanto no es mecánico, siendo esta una plataforma que se explora de manera más «efectiva» obviamente tiene más oportunidades de ver su mejor contenido analizado y por lo tanto devuelto en las SERPs .

¿Qué contenido debería prohibirse desde la perspectiva del SEO?

En primer lugar, las páginas estáticas que está actualizando por relevancia pueden ser parte del contenido que no le gustaría que los bots rastrearan.

También es información calificada como confidencial, como recursos no sensibles pero sobre todo destinada a ser descubierta por colaboradores internos (documentación, white paper, especificaciones, etc.) Entonces pensamos en páginas duplicadas, que frecuentemente representan partes de un sitio importante en WordPress. y otros SMS. Además, son las búsquedas internas del motor de búsqueda, las cuales, si bien pueden brindarle algunas ideas relevantes para explotar en la referenciación natural, no son necesariamente de interés para los usuarios del motor.

¿Qué otras reglas de SEO debería conocer?

El nombre de este archivo debe escribirse necesariamente de esta manera, en plural: robots.txt. Cualquier error de ortografía lo hará inútil. Cuando un sitio web se beneficia de un archivo robots.txt pero no puede ser interpretado por Google por varios motivos, el robot deja de realizar su función de rastrear la dirección y todo su contenido. Basta decir que si decides integrar robots.txt, debe ser accesible, legible e indicar instrucciones que los robots sean capaces de asimilar bajo pena de dejar de explorar (por tanto, indexar) la nueva información que ofreces a los internautas. Si la URL de su tienda de comercio electrónico o su sitio informativo ya aparece en los resultados del motor de búsqueda, prohibir el acceso mediante un depósito en robots.txt no cambiará nada: la URL seguirá vigente indexada. Por el contrario, para desindexarlo, debe autorizar su rastreo y usar una metaetiqueta robots noindex o un encabezado HTTP X-Robots-Tag. La alternativa es solicitar su eliminación en Search Console. Solo puede haber un archivo robots.txt y debe ser absolutamente inferior a 500 kb o exactamente 500 kb, no se tendrá en cuenta un peso mayor y parte de las instrucciones del archivo. También es probable que el archivo robots.txt esté indexado en Google u otro motor. Para desindexarlo, debes aprovechar una herramienta como X-Robots-Tag o prohibir el rastreo del archivo y luego eliminarlo del índice en Search Console. Además, recomendamos crear un archivo robots.txt para cada subdominio y para cada protocolo (HTTP y HTTPS). Si no tiene instrucciones para dar, nada le impide dejar un archivo vacío en línea.

¿Cómo usar, colocar y actualizar el archivo robots.txt?

¿Cómo podemos crear o leer el archivo robots.txt?

El archivo se puede crear y editar fácilmente con un editor de texto simple, como Notepad, Atom o Notepad.

¿Dónde poner el archivo robots.txt?

El archivo robots.txt debe estar necesariamente ubicado en la raíz del sitio. Para hacer esto, simplemente arrástrelo a la ubicación proporcionada en su servidor FTP.

¿Cómo actualizarlo?

En Search Console, cada we2bmaster tiene la opción de actualizar el archivo robots.txt. En la pestaña «Exploración”, Distinguimos en particular la categoría denominada“Herramienta de prueba de archivos Robots.txt”. Aquí, por ejemplo, puede probar el posible bloqueo de una página. Al hacer clic en «Enviar», siga las instrucciones de Google para actualizar su archivo, lo tendrá en cuenta con bastante rapidez.

Para ver su archivo, simplemente escriba en la barra de direcciones de su navegador la URL en este formulario: https://www.monsite.fr/robots.txt