Como os assistentes de IA buscam páginas da web: análise de logs do Nginx do ChatGPT, Claude, Gemini e outros

Um desenvolvedor conduziu um experimento prático para determinar se os assistentes de IA buscam páginas da web em tempo real ou respondem a partir de índices armazenados em cache quando os usuários perguntam sobre sites específicos. Configurando um registro personalizado no Nginx e solicitando que os principais chatbots acessassem strings de consulta únicas, eles obtiveram evidências claras do comportamento de recuperação.
A configuração da investigação
O teste usou um formato de log personalizado do Nginx para capturar cabeçalhos que o log combinado padrão comprime:
log_format ai_probe escape=json '{' '"time":"$time_iso8601",' '"ip":"$remote_addr",' '"uri":"$request_uri",' '"status":$status,' '"ua":"$http_user_agent",' '"referer":"$http_referer",' '"accept":"$http_accept"' '}';
Cada assistente recebeu um prompt apontando para uma string de consulta única (/?ai=chatgpt, /?ai=claude, etc.), tornando a atribuição direta. Os prompts foram executados novamente em diferentes sessões para evitar que acertos de cache transitórios mascarassem os padrões de recuperação.
Quem se anunciou com agentes de usuário dedicados
Cinco assistentes chegaram com sinais específicos de recuperação:
- ChatGPT: ChatGPT-User/1.0 (Accept no estilo Chrome, sem verificação de robots.txt)
- Claude: Claude-User/1.0 (Accept */*, sempre verifica robots.txt primeiro)
- Perplexity: Perplexity-User/1.0 (cabeçalho Accept vazio)
- Meta AI: meta-webindexer/1.1 (Accept */*, sem verificação de robots.txt)
- Manus: Sufixo Manus-User/1.0 no agente de usuário do Chrome (Accept no estilo Chrome)
Todos os cinco buscaram a página diretamente da origem.
Quem não se anunciou
- Gemini: Nenhuma solicitação de qualquer agente de usuário do Google durante a janela do prompt. Respondeu inteiramente a partir de seu próprio índice sem realizar uma busca ao vivo no lado do provedor.
- Copilot: Chrome 135 simples no Linux x86_64, Accept completo no estilo navegador. Buscou, mas indistinguível de visitantes humanos.
- Grok: Safari 26 simples para Mac e Chrome 143 simples para Mac. Buscou, mas indistinguível de visitantes humanos.
Principais padrões comportamentais observados
ChatGPT: Acessos de múltiplos IPs de origem dentro do mesmo surto, normalmente puxando várias páginas candidatas de uma vez enquanto decide qual citar. Em uma janela de produção de 24 horas, as solicitações do ChatGPT-User vieram de cinco intervalos distintos do Azure: 23.98.x.x, 20.215.x.x, 40.67.x.x, 51.8.x.x e 51.107.x.x.
Claude: Sempre busca /robots.txt antes de cada busca de página, a partir do espaço de IP de propriedade da Anthropic no intervalo 216.73.216.0/24. Segue redirecionamentos de forma limpa, incluindo normalização de barra final. A Anthropic executa três bots distintos: Claude-User (recuperação iniciada pelo usuário), Claude-SearchBot (índice de busca) e ClaudeBot (rastreador de treinamento).
Perplexity: Busca direta sem cabeçalho Accept ou referenciador. O PerplexityBot (seu rastreador de indexação de busca) verificou separadamente o /robots.txt. O autor observa que o Perplexity pode recuperar ao vivo, mas não precisa, pois pode responder a partir de seu próprio índice.
Gemini: Nenhuma busca ao vivo no lado do provedor observada. O Google não publica um agente de usuário específico para recuperação do Gemini e, de acordo com a documentação do rastreador do Google, os Resumos de IA e o Modo IA se baseiam no mesmo índice de Busca que o Googlebot preenche.
O experimento distingue entre dois sinais: busca no lado do provedor (o assistente acessa a origem com agente de usuário dedicado) e visitas reais por cliques (humano lê a resposta da IA e clica na citação, chegando como navegador normal com o assistente como referenciador). Combinar ambos em um único número de "tráfego de IA" esconde essa distinção útil.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

soul.py adiciona memória persistente a LLMs locais com uma abordagem simples baseada em arquivos
soul.py é uma biblioteca Python que adiciona memória persistente a qualquer LLM usando dois arquivos markdown para identidade e registro de conversas, funcionando com modelos Ollama, OpenAI e Anthropic sem exigir bancos de dados ou servidores.

Biblioteca de código aberto com 59 habilidades Claude cobre todo o ciclo de vida de sites
Um desenvolvedor lançou 59 habilidades reutilizáveis para Claude cobrindo descoberta de marca, design, conteúdo, SEO, desenvolvimento, operações e crescimento — independentes de tecnologia, com estrutura uniforme e validação CI via lint.

Claude Cowork vs OpenClaw: Onde a narrativa de substituição se sustenta e onde falha
O Claude Cowork oferece sessões persistentes na área de trabalho com baixa fricção, enquanto o OpenClaw mantém vantagens em automação em nível de sistema, ecossistemas de habilidades e controle de fluxo de trabalho.

Comandante de Frota: Painel de controle de código aberto para orquestrar múltiplas equipes de agentes Claude Code
Fleet Commander é um painel web local que executa múltiplas equipes de agentes Claude Code em paralelo em diferentes problemas. Ele usa uma estrutura de 'equipe Diamante' com agentes Planejador, Desenvolvedor e Revisor que se comunicam peer-to-peer via SendMessage.