Robots.txt es un archivo de texto que permite al administrador de web o administrador de un sitio web informar a los motores de búsqueda (también llamados rastreadores) la información que pueden analizar. Está destinado exclusivamente a los robots de indexación , no prohíbe el acceso de una página o directorio a un usuario.
Esquema de Contenidos
El origen del archivo robots.txt.
Este archivo que ya cumple más de 25 años, se atribuye a Martin Koster, que trabajaba para Webcrawler en 1994. En ese momento, se trataba de regular el rastreo de robots, una actividad que tenía el potencial de causar una serie de inconvenientes, como Programación de scripts y servidores.
¿Qué vínculo entre robots.txt y SEO?
Hacer referencia a un sitio web no es posible sin la exploración de contenido por parte de robots de motor. Al darles instrucciones a través de este archivo, básicamente puede explicarles que no están interesados en el contenido que cree que no aportará un valor agregado en los resultados de Google. Bing o Yahoo.
¿La creación de robots.txt garantiza un mejor SEO?
En 2017, este mismo motor se comunicó al respecto. La facilidad de rastreo no es un criterio de relevancia de su algoritmo, el efecto en SEO no es mecánico, esta es una plataforma que se explora más «efectivamente», obviamente tiene más oportunidades para ver su mejor Contenidos analizados y así restaurados en los SERPs.
¿Qué contenido prohibir en una perspectiva SEO?
Primero, las páginas estáticas que está actualizando para problemas de relevancia pueden ser parte del contenido que no le gustaría que analizaran los robots.
También es la información clasificada como confidencial, como recursos no sensibles, pero principalmente para ser descubierta por los empleados internos (documentación, notas del producto, especificaciones …) Luego pensamos en páginas duplicadas, que con frecuencia representan partes de Importante sitio en WordPress y otros CMS. También es la investigación del motor de búsqueda interno, que, si bien puede proporcionarle información relevante para el SEO, no es necesariamente interesante para los usuarios del motor.
¿Cuáles son las otras reglas de SEO para saber?
El nombre de este archivo debe estar necesariamente escrito de esta manera, en plural: robots.txt. Cualquier error de ortografía lo hará inútil. Cuando un sitio web tiene un archivo robots.txt pero Google no puede interpretarlo por una variedad de razones, entonces el bot deja de realizar su función de rastreo de la dirección y todo su contenido. . En otras palabras, si decide integrar el archivo robots.txt, debe ser accesible, legible e indicar las instrucciones que los robots pueden asimilar bajo el dolor de no explorar (indexar) la nueva información que ofrece a los usuarios. . Si la URL de su tienda de comercio electrónico o su sitio informativo ya aparece en los resultados del motor, prohibir el acceso a través de un punto de ajuste en el archivo robots.txt no cambiará nada: La URL permanecerá indexada. Por el contrario, para desindexarlo, debe permitir su rastreo y usar una metaetiqueta de robots noindex o un encabezado HTTP de X-Robots-Tag. La alternativa es solicitar la eliminación en Search Console. Solo puede haber un archivo robots.txt y debe ser absolutamente inferior a 500 KB o exactamente 500 KB, no se tendrá en cuenta un mayor peso y algunas de las instrucciones del archivo. El archivo robots.txt también es probable que se indexe en Google u otro motor. Para desindexarlo, debe aprovechar una herramienta como X-Robots-Tag o prohibir el rastreo de archivos y luego eliminarla del índice en Search Console. Además, recomendamos la creación de un archivo robots.txt para cada subdominio y para cada protocolo (HTTP y HTTPS).
¿Cómo utilizar, colocar y actualizar el archivo robots.txt?
¿Cómo se puede crear o leer el archivo robots.txt?
El archivo se puede crear y modificar fácilmente con un editor de texto simple, como Bloc de notas, Atom o Bloc de notas.
¿Dónde colocar el archivo robots.txt?
El archivo robots.txt debe estar en la raíz del sitio. Para hacer esto, simplemente arrástrelo a la ubicación deseada en su servidor FTP.
¿Cómo actualizarlo?
En la consola de búsqueda, cada webmaster tiene la opción de actualizar el archivo robots.txt. En la pestaña » Exploración «, distinguimos en particular la categoría llamada » Herramienta de prueba del archivo Robots.txt «. En este lugar, se le permite, por ejemplo, probar el posible bloqueo de una página. Al hacer clic en «Enviar», siga las instrucciones de Google para actualizar su archivo, lo tendrá en cuenta con bastante rapidez.
Para ver su archivo , simplemente escriba en la barra de direcciones de su navegador la URL en este formulario: https://www.mysite.com/robots.txt
Robots.txt: qué no hacer
- un cambio de la URL de robots.txt (que ya no está en la raíz)
- La URL de robots.txt que devuelve un error (404, 500 …)
- El archivo robots.txt sobrescrito por la versión de preproducción (en la que se menciona una directiva no permitida / que bloquea todo el sitio)
- una linea en blanco en un bloque de directivas
- una mala codificación del archivo (debe estar en UTF-8)
- Un mal orden de los bloques de directivas.
Los comandos de robots.txt
Permitir la indexación de todas las páginas en un sitio
1er. Método
User-agent: *
Disallow:
No ponemos nada después de «No permitir:», lo que significa que no bloqueamos nada.
2do, Método
User-agent: *
Allow: /
Aquí, los robots pueden indexar todas las páginas.
Bloqueo de indexación de todas las páginas.
User-agent: *
Disallow: /
Bloquear la indexación de una carpeta en particular
User-agent: *
Disallow: / folder /
Bloquee GoogleBot al indexar una carpeta, excepto por una página específica en esa carpeta
User-agent: Googlebot
Disallow: / folder /
Allow: /dossier/nompage.html
En caso de que tenga más preguntas sobre las cosas que mencioné en el artículo, no dude en preguntarme a continuación en los comentarios.
Si ahora deseas ponerte manos a la obra y empezar a diseñar y configurar tu propio archivo robots.txt, en este post te explico como crear tu robotx.txt para wordpress.
Un cordial saludo, y nos vemos en breve!