Cómo los asistentes de IA obtienen páginas web: Análisis de registros de Nginx de ChatGPT, Claude, Gemini y otros

Un desarrollador realizó un experimento práctico para determinar si los asistentes de IA recuperan páginas web en vivo o responden desde índices almacenados en caché cuando los usuarios preguntan sobre sitios específicos. Al configurar registros personalizados de Nginx y proporcionar a los principales chatbots cadenas de consulta únicas, capturaron evidencia clara del comportamiento de recuperación.
Configuración de la prueba
La prueba utilizó un formato de registro personalizado de Nginx para capturar encabezados que el registro combinado predeterminado comprime:
log_format ai_probe escape=json '{' '"time":"$time_iso8601",' '"ip":"$remote_addr",' '"uri":"$request_uri",' '"status":$status,' '"ua":"$http_user_agent",' '"referer":"$http_referer",' '"accept":"$http_accept"' '}';
Cada asistente recibió un mensaje que apuntaba a una cadena de consulta única (/?ai=chatgpt, /?ai=claude, etc.), lo que facilitó la atribución. Los mensajes se volvieron a ejecutar en diferentes sesiones para evitar que los aciertos de caché transitorios ocultaran los patrones de recuperación.
Quiénes se anunciaron con agentes de usuario dedicados
Cinco asistentes llegaron con señales específicas de recuperación:
- ChatGPT: ChatGPT-User/1.0 (Accept estilo Chrome, sin verificación de robots.txt)
- Claude: Claude-User/1.0 (*/* Accept, siempre verifica robots.txt primero)
- Perplexity: Perplexity-User/1.0 (encabezado Accept vacío)
- Meta AI: meta-webindexer/1.1 (*/* Accept, sin verificación de robots.txt)
- Manus: Sufijo Manus-User/1.0 en el agente de usuario de Chrome (Accept estilo Chrome)
Los cinco recuperaron la página directamente desde el origen.
Quiénes no se anunciaron
- Gemini: Cero solicitudes de cualquier agente de usuario de Google durante la ventana del mensaje. Respondió completamente desde su propio índice sin realizar una recuperación en vivo desde el lado del proveedor.
- Copilot: Chrome 135 simple en Linux x86_64, Accept completo estilo navegador. Recuperó pero indistinguible de visitantes humanos.
- Grok: Safari 26 para Mac simple y Chrome 143 para Mac simple. Recuperó pero indistinguible de visitantes humanos.
Patrones de comportamiento clave observados
ChatGPT: Aciertos desde múltiples IPs de origen dentro del mismo estallido, típicamente extrayendo varias páginas candidatas a la vez mientras decide cuál citar. En una ventana de producción de 24 horas, las solicitudes de ChatGPT-User provinieron de cinco rangos distintos de Azure: 23.98.x.x, 20.215.x.x, 40.67.x.x, 51.8.x.x y 51.107.x.x.
Claude: Siempre recupera /robots.txt antes de cada recuperación de página, desde el espacio de IP propiedad de Anthropic en el rango 216.73.216.0/24. Sigue redirecciones limpiamente, incluida la normalización de la barra diagonal final. Anthropic ejecuta tres bots distintos: Claude-User (recuperación iniciada por el usuario), Claude-SearchBot (índice de búsqueda) y ClaudeBot (rastreador de entrenamiento).
Perplexity: Recuperación directa sin encabezado Accept o referente. PerplexityBot (su rastreador de indexación de búsqueda) hizo ping por separado a /robots.txt. El autor señala que Perplexity puede recuperar en vivo pero no tiene que hacerlo, ya que puede responder desde su propio índice.
Gemini: No se observó ninguna recuperación en vivo desde el lado del proveedor. Google no publica un agente de usuario específico de recuperación para Gemini, y según la documentación del rastreador de Google, AI Overviews y AI Mode se basan en el mismo índice de búsqueda que Googlebot llena.
El experimento distingue entre dos señales: recuperación desde el lado del proveedor (el asistente accede al origen con un agente de usuario dedicado) y visitas reales de clics (un humano lee la respuesta de la IA y hace clic en la cita, llegando como un navegador normal con el asistente como referente). Combinar ambas en un solo número de "tráfico de IA" oculta esta distinción útil.
📖 Lea la fuente completa: HN AI Agents
👀 Ver también

HostMyClaudeHTML: Compartir con un clic para artefactos HTML de Claude
Un desarrollador creó hostmyclaudehtml.com, una herramienta gratuita que te permite compartir artefactos HTML generados por Claude como URLs en vivo arrastrando y soltando el archivo .html. No se requiere cuenta para quienes suben o ven el contenido.

Claude Code a escala: Cómo la búsqueda agéntica evita los modos de fallo de RAG en grandes bases de código
Claude Code utiliza un recorrido agéntico del sistema de archivos en lugar de RAG basado en incrustaciones, eliminando los problemas de índices obsoletos. El artículo detalla cinco puntos de extensión (CLAUDE.md, hooks, skills, plugins, MCP) y la filosofía de "el arnés es más importante que el modelo" para repositorios con millones de líneas.

McPherson AI lanza dos nuevas habilidades operativas para QSR en ClawHub: diagnóstico de costos de alimentos y auditoría de fugas de mano de obra.
Se han publicado dos nuevas habilidades gratuitas en ClawHub: qsr-food-cost-diagnostic detecta problemas de COGS semanalmente con un diagnóstico de cuatro palancas, y qsr-labor-leak-auditor proporciona seguimiento laboral diario con alertas a mitad de semana para prevenir gastos excesivos.

El Complemento de Programación en Pareja Agrega Contexto de Pantalla en Vivo, Voz y Audio a Claude Code
Un desarrollador ha creado un complemento llamado Pair Programmer que le da a Claude Code percepción del escritorio en tiempo real capturando transmisiones de pantalla, micrófono y audio del sistema. La arquitectura utiliza agentes especializados que se ejecutan en paralelo para diferentes tipos de entrada, con la indexación actualmente manejada por modelos en la nube pero diseñada para ser independiente del modelo.