Robots.txt para crawlers de IA

robots.txt permite declarar que rutas pueden rastrear distintos bots. En la era de busqueda generativa, conviene distinguir crawlers de busqueda, crawlers de usuario y crawlers de entrenamiento.

Bloquear "todos los bots de IA" puede proteger contenido, pero tambien puede impedir aparecer en respuestas con fuentes.

Crawlers importantes

Crawler	Servicio	Uso general
OAI-SearchBot	OpenAI	Busqueda en ChatGPT
ChatGPT-User	OpenAI	Acceso iniciado por usuario
GPTBot	OpenAI	Mejora/entrenamiento segun politica
ClaudeBot	Anthropic	Rastreo de Anthropic
PerplexityBot	Perplexity	Busqueda y respuestas con fuentes
Google-Extended	Google	Control de uso para modelos Gemini, no Google Search

Revisa documentacion oficial antes de decidir. Los nombres y politicas pueden cambiar.

Configuracion comun

Si quieres visibilidad en ChatGPT Search pero no entrenamiento general, puedes permitir OAI-SearchBot y ChatGPT-User, y restringir crawlers asociados a entrenamiento.

Ejemplo:

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: GPTBot
Disallow: /

Para un directorio publico, puede tener sentido permitir mas crawlers de recuperacion. Para contenido premium o privado, no.

Errores comunes

reglas contradictorias,
Disallow: / heredado por wildcard,
plugins que agregan reglas sin revisar,
Cloudflare o WAF bloqueando bots aunque robots permita,
olvidar sitemap,
bloquear /llms.txt,
permitir rutas privadas.

Siempre prueba el archivo servido en produccion, no solo el codigo local.

Content-Signal

Algunos sitios empiezan a declarar preferencias como:

Content-Signal: search=yes,ai-input=yes,ai-train=no

Esto no reemplaza User-agent, pero ayuda a expresar intencion de uso. Conviene tratarlo como señal complementaria, no como control de seguridad.

Fuentes y recursos recomendados

Fuentes externas:

OpenAI Crawlers: documentacion oficial de crawlers OpenAI.
Google-Extended: documentacion de Google sobre Google-Extended.
PerplexityBot: informacion de Perplexity sobre sus bots.
robots.txt specification: especificacion del protocolo.

Recursos internos:

Conclusion

La estrategia de robots.txt debe distinguir visibilidad, recuperacion y entrenamiento. Permitir el crawler correcto puede abrir oportunidades de GEO; permitir todo sin criterio puede exponer mas de lo necesario.

Crawlers importantes

Crawler

Servicio

Uso general

OAI-SearchBot

OpenAI

Busqueda en ChatGPT

ChatGPT-User

OpenAI

Acceso iniciado por usuario

GPTBot

OpenAI

Mejora/entrenamiento segun politica

ClaudeBot

Anthropic

Rastreo de Anthropic

PerplexityBot

Perplexity

Busqueda y respuestas con fuentes

Google-Extended

Google

Control de uso para modelos Gemini, no Google Search

Revisa documentacion oficial antes de decidir. Los nombres y politicas pueden cambiar.

Configuracion comun

Si quieres visibilidad en ChatGPT Search pero no entrenamiento general, puedes permitir OAI-SearchBot y ChatGPT-User, y restringir crawlers asociados a entrenamiento.

Ejemplo:

User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: GPTBot Disallow: /

Para un directorio publico, puede tener sentido permitir mas crawlers de recuperacion. Para contenido premium o privado, no.