Asistentes IA: Cómo obtienen webs según logs Nginx

Un desarrollador realizó un experimento práctico para determinar si los asistentes de IA recuperan páginas web en vivo o responden desde índices almacenados en caché cuando los usuarios preguntan sobre sitios específicos. Al configurar registros personalizados de Nginx y proporcionar a los principales chatbots cadenas de consulta únicas, capturaron evidencia clara del comportamiento de recuperación.

Configuración de la prueba

La prueba utilizó un formato de registro personalizado de Nginx para capturar encabezados que el registro combinado predeterminado comprime:

log_format ai_probe escape=json '{' '"time":"$time_iso8601",' '"ip":"$remote_addr",' '"uri":"$request_uri",' '"status":$status,' '"ua":"$http_user_agent",' '"referer":"$http_referer",' '"accept":"$http_accept"' '}';

Cada asistente recibió un mensaje que apuntaba a una cadena de consulta única (/?ai=chatgpt, /?ai=claude, etc.), lo que facilitó la atribución. Los mensajes se volvieron a ejecutar en diferentes sesiones para evitar que los aciertos de caché transitorios ocultaran los patrones de recuperación.

Quiénes se anunciaron con agentes de usuario dedicados

Cinco asistentes llegaron con señales específicas de recuperación:

ChatGPT: ChatGPT-User/1.0 (Accept estilo Chrome, sin verificación de robots.txt)
Claude: Claude-User/1.0 (*/* Accept, siempre verifica robots.txt primero)
Perplexity: Perplexity-User/1.0 (encabezado Accept vacío)
Meta AI: meta-webindexer/1.1 (*/* Accept, sin verificación de robots.txt)
Manus: Sufijo Manus-User/1.0 en el agente de usuario de Chrome (Accept estilo Chrome)

Los cinco recuperaron la página directamente desde el origen.

Quiénes no se anunciaron

Gemini: Cero solicitudes de cualquier agente de usuario de Google durante la ventana del mensaje. Respondió completamente desde su propio índice sin realizar una recuperación en vivo desde el lado del proveedor.
Copilot: Chrome 135 simple en Linux x86_64, Accept completo estilo navegador. Recuperó pero indistinguible de visitantes humanos.
Grok: Safari 26 para Mac simple y Chrome 143 para Mac simple. Recuperó pero indistinguible de visitantes humanos.

Patrones de comportamiento clave observados

ChatGPT: Aciertos desde múltiples IPs de origen dentro del mismo estallido, típicamente extrayendo varias páginas candidatas a la vez mientras decide cuál citar. En una ventana de producción de 24 horas, las solicitudes de ChatGPT-User provinieron de cinco rangos distintos de Azure: 23.98.x.x, 20.215.x.x, 40.67.x.x, 51.8.x.x y 51.107.x.x.

Claude: Siempre recupera /robots.txt antes de cada recuperación de página, desde el espacio de IP propiedad de Anthropic en el rango 216.73.216.0/24. Sigue redirecciones limpiamente, incluida la normalización de la barra diagonal final. Anthropic ejecuta tres bots distintos: Claude-User (recuperación iniciada por el usuario), Claude-SearchBot (índice de búsqueda) y ClaudeBot (rastreador de entrenamiento).

Perplexity: Recuperación directa sin encabezado Accept o referente. PerplexityBot (su rastreador de indexación de búsqueda) hizo ping por separado a /robots.txt. El autor señala que Perplexity puede recuperar en vivo pero no tiene que hacerlo, ya que puede responder desde su propio índice.

Gemini: No se observó ninguna recuperación en vivo desde el lado del proveedor. Google no publica un agente de usuario específico de recuperación para Gemini, y según la documentación del rastreador de Google, AI Overviews y AI Mode se basan en el mismo índice de búsqueda que Googlebot llena.

El experimento distingue entre dos señales: recuperación desde el lado del proveedor (el asistente accede al origen con un agente de usuario dedicado) y visitas reales de clics (un humano lee la respuesta de la IA y hace clic en la cita, llegando como un navegador normal con el asistente como referente). Combinar ambas en un solo número de "tráfico de IA" oculta esta distinción útil.

📖 Lea la fuente completa: HN AI Agents

Cómo los asistentes de IA obtienen páginas web: Análisis de registros de Nginx de ChatGPT, Claude, Gemini y otros

Configuración de la prueba

Quiénes se anunciaron con agentes de usuario dedicados

Quiénes no se anunciaron

Patrones de comportamiento clave observados

👀 Ver también

Revisión de AutoClaw Local Runner: Configuración Sencilla, Costos de Créditos y Problemas de Desinstalación

Claude-File-Recovery: Herramienta CLI que extrae archivos del historial de sesiones de Claude Code

AlterSpec v1.0: Aplicación de Políticas en Tiempo de Ejecución para Agentes de IA

DeepClaude reemplaza el backend Anthropic de Claude Code por DeepSeek V4 Pro con un costo 17 veces menor