Robots.txt para crawlers de IA
Guia practica para configurar robots.txt con crawlers de IA como OAI-SearchBot, GPTBot, ClaudeBot y PerplexityBot.
robots.txt permite declarar que rutas pueden rastrear distintos bots. En la era de busqueda generativa, conviene distinguir crawlers de busqueda, crawlers de usuario y crawlers de entrenamiento.
Bloquear "todos los bots de IA" puede proteger contenido, pero tambien puede impedir aparecer en respuestas con fuentes.
Crawlers importantes
| Crawler | Servicio | Uso general |
|---|---|---|
| OAI-SearchBot | OpenAI | Busqueda en ChatGPT |
| ChatGPT-User | OpenAI | Acceso iniciado por usuario |
| GPTBot | OpenAI | Mejora/entrenamiento segun politica |
| ClaudeBot | Anthropic | Rastreo de Anthropic |
| PerplexityBot | Perplexity | Busqueda y respuestas con fuentes |
| Google-Extended | Control de uso para modelos Gemini, no Google Search |
Revisa documentacion oficial antes de decidir. Los nombres y politicas pueden cambiar.
Configuracion comun
Si quieres visibilidad en ChatGPT Search pero no entrenamiento general, puedes permitir OAI-SearchBot y ChatGPT-User, y restringir crawlers asociados a entrenamiento.
Ejemplo:
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: GPTBot
Disallow: /
Para un directorio publico, puede tener sentido permitir mas crawlers de recuperacion. Para contenido premium o privado, no.
Errores comunes
- reglas contradictorias,
Disallow: /heredado por wildcard,- plugins que agregan reglas sin revisar,
- Cloudflare o WAF bloqueando bots aunque robots permita,
- olvidar sitemap,
- bloquear
/llms.txt, - permitir rutas privadas.
Siempre prueba el archivo servido en produccion, no solo el codigo local.
Content-Signal
Algunos sitios empiezan a declarar preferencias como:
Content-Signal: search=yes,ai-input=yes,ai-train=no
Esto no reemplaza User-agent, pero ayuda a expresar intencion de uso. Conviene tratarlo como señal complementaria, no como control de seguridad.
Fuentes y recursos recomendados
Fuentes externas:
- OpenAI Crawlers: documentacion oficial de crawlers OpenAI.
- Google-Extended: documentacion de Google sobre Google-Extended.
- PerplexityBot: informacion de Perplexity sobre sus bots.
- robots.txt specification: especificacion del protocolo.
Recursos internos:
Conclusion
La estrategia de robots.txt debe distinguir visibilidad, recuperacion y entrenamiento. Permitir el crawler correcto puede abrir oportunidades de GEO; permitir todo sin criterio puede exponer mas de lo necesario.