Análise de Logs Nginx: Como Assistentes de IA Buscam Páginas

Um desenvolvedor conduziu um experimento prático para determinar se os assistentes de IA buscam páginas da web em tempo real ou respondem a partir de índices armazenados em cache quando os usuários perguntam sobre sites específicos. Configurando um registro personalizado no Nginx e solicitando que os principais chatbots acessassem strings de consulta únicas, eles obtiveram evidências claras do comportamento de recuperação.

A configuração da investigação

O teste usou um formato de log personalizado do Nginx para capturar cabeçalhos que o log combinado padrão comprime:

log_format ai_probe escape=json '{' '"time":"$time_iso8601",' '"ip":"$remote_addr",' '"uri":"$request_uri",' '"status":$status,' '"ua":"$http_user_agent",' '"referer":"$http_referer",' '"accept":"$http_accept"' '}';

Cada assistente recebeu um prompt apontando para uma string de consulta única (/?ai=chatgpt, /?ai=claude, etc.), tornando a atribuição direta. Os prompts foram executados novamente em diferentes sessões para evitar que acertos de cache transitórios mascarassem os padrões de recuperação.

Quem se anunciou com agentes de usuário dedicados

Cinco assistentes chegaram com sinais específicos de recuperação:

ChatGPT: ChatGPT-User/1.0 (Accept no estilo Chrome, sem verificação de robots.txt)
Claude: Claude-User/1.0 (Accept */*, sempre verifica robots.txt primeiro)
Perplexity: Perplexity-User/1.0 (cabeçalho Accept vazio)
Meta AI: meta-webindexer/1.1 (Accept */*, sem verificação de robots.txt)
Manus: Sufixo Manus-User/1.0 no agente de usuário do Chrome (Accept no estilo Chrome)

Todos os cinco buscaram a página diretamente da origem.

Quem não se anunciou

Gemini: Nenhuma solicitação de qualquer agente de usuário do Google durante a janela do prompt. Respondeu inteiramente a partir de seu próprio índice sem realizar uma busca ao vivo no lado do provedor.
Copilot: Chrome 135 simples no Linux x86_64, Accept completo no estilo navegador. Buscou, mas indistinguível de visitantes humanos.
Grok: Safari 26 simples para Mac e Chrome 143 simples para Mac. Buscou, mas indistinguível de visitantes humanos.

Principais padrões comportamentais observados

ChatGPT: Acessos de múltiplos IPs de origem dentro do mesmo surto, normalmente puxando várias páginas candidatas de uma vez enquanto decide qual citar. Em uma janela de produção de 24 horas, as solicitações do ChatGPT-User vieram de cinco intervalos distintos do Azure: 23.98.x.x, 20.215.x.x, 40.67.x.x, 51.8.x.x e 51.107.x.x.

Claude: Sempre busca /robots.txt antes de cada busca de página, a partir do espaço de IP de propriedade da Anthropic no intervalo 216.73.216.0/24. Segue redirecionamentos de forma limpa, incluindo normalização de barra final. A Anthropic executa três bots distintos: Claude-User (recuperação iniciada pelo usuário), Claude-SearchBot (índice de busca) e ClaudeBot (rastreador de treinamento).

Perplexity: Busca direta sem cabeçalho Accept ou referenciador. O PerplexityBot (seu rastreador de indexação de busca) verificou separadamente o /robots.txt. O autor observa que o Perplexity pode recuperar ao vivo, mas não precisa, pois pode responder a partir de seu próprio índice.

Gemini: Nenhuma busca ao vivo no lado do provedor observada. O Google não publica um agente de usuário específico para recuperação do Gemini e, de acordo com a documentação do rastreador do Google, os Resumos de IA e o Modo IA se baseiam no mesmo índice de Busca que o Googlebot preenche.

O experimento distingue entre dois sinais: busca no lado do provedor (o assistente acessa a origem com agente de usuário dedicado) e visitas reais por cliques (humano lê a resposta da IA e clica na citação, chegando como navegador normal com o assistente como referenciador). Combinar ambos em um único número de "tráfego de IA" esconde essa distinção útil.

📖 Leia a fonte completa: HN AI Agents

Como os assistentes de IA buscam páginas da web: análise de logs do Nginx do ChatGPT, Claude, Gemini e outros

A configuração da investigação

Quem se anunciou com agentes de usuário dedicados

Quem não se anunciou

Principais padrões comportamentais observados

👀 See Also

A Skillware adiciona um gerador de dados sintéticos com pontuação de entropia para ajuste fino de modelos locais.

A habilidade Claude Code combina as abordagens do DeepMind Aletheia e do Anthropic harness

antirez DS4: Executando DeepSeek V4 Flash com Contexto de 1M no Mac Metal e DGX

Codegraph: Grafo de conhecimento pré-indexado reduz chamadas de ferramentas Claude/Cursor em 94%