Crear visualmente archivos robots.txt con plantillas de motores de búsqueda y reglas de rastreador
Características
- Múltiples User-Agents: Configurar reglas para diferentes rastreadores
- Plantillas de Reglas: Plantillas predefinidas para escenarios comunes
- Validación de Sintaxis: Validar sintaxis de robots.txt
- Vista Previa y Exportar: Vista previa y descargar robots.txt
Guía de uso
- Seleccionar plantilla: Elegir una plantilla preestablecida que coincida con el tipo de sitio o comenzar con la plantilla Permitir todo
- Configurar reglas: Agregar reglas de rastreador, especificar User-agents y rutas para permitir o bloquear
- Agregar Sitemaps: Agregar URLs de sitemap para ayudar a los motores de búsqueda a descubrir su contenido
- Exportar archivo: Previsualizar el contenido generado, luego copiar o descargar el archivo robots.txt
Detalles técnicos
Protocolo de Exclusión de Robots
Robots.txt sigue el Protocolo de Exclusión de Robots (REP), un estándar desarrollado en 1994 para proporcionar a los propietarios de sitios web una forma de comunicarse con los rastreadores web. El archivo debe colocarse en el directorio raíz y nombrarse exactamente 'robots.txt'. Utiliza una sintaxis simple con directivas como User-agent, Disallow, Allow, Sitemap y Crawl-delay para controlar el comportamiento del rastreador.
Directiva User-agent
La directiva User-agent especifica a qué rastreador se aplican las reglas. Usar '*' aplica reglas a todos los rastreadores. Puede dirigirse a rastreadores específicos como Googlebot, Bingbot o Baiduspider. Cada sección User-agent puede tener múltiples directivas Allow y Disallow para definir rutas accesibles y bloqueadas.
Reglas Allow y Disallow
La directiva Disallow especifica rutas a las que los rastreadores no deben acceder, mientras que la directiva Allow (no soportada por todos los rastreadores) permite el acceso a rutas específicas dentro de un área denegada. Las rutas distinguen entre mayúsculas y minúsculas y soportan comodines (*) y coincidencia de fin de ruta ($). Por ejemplo, Disallow: /*.pdf$ bloquea todos los archivos PDF.
Preguntas frecuentes
- ¿Qué es robots.txt?
- robots.txt es un archivo que indica a rastreadores web (motores de búsqueda) qué páginas pueden o no pueden rastrear en su sitio.
- ¿Dónde colocar robots.txt?
- Debe colocarse en directorio raíz del sitio web: https://tudominio.com/robots.txt. Los rastreadores lo buscan automáticamente allí.
- ¿robots.txt bloquea acceso?
- No. robots.txt son directrices, no aplicación. Los rastreadores bien comportados las respetan, pero los actores maliciosos pueden ignorarlas. Usar autenticación apropiada para contenido privado.
Documentación relacionada
- Especificación oficial Robots.txt - Documentación estándar del protocolo Robots Exclusion
- Guía de Google para robots.txt - Documentación oficial de Google sobre rastreo e indexación
- Herramienta de prueba de Google - Prueba y valida tu archivo robots.txt en Search Console
- Guía de Bing Webmasters - Cómo crear un archivo robots.txt para Bing
- Mejores prácticas SEO de Moz - Guía completa sobre robots.txt y SEO