Estudo ETH Zurich: Contexto Excessivo Reduz 2-3% o Desempenho de Agentes de IA

Um estudo recente da ETH Zurich fornece evidências concretas de que mais contexto não significa necessariamente melhor desempenho para agentes de IA de codificação. A pesquisa testou quatro agentes de codificação em 138 tarefas reais do GitHub, com resultados quantitativos claros.

Principais Descobertas

O estudo revelou que arquivos de contexto gerados por LLM reduziram as taxas de sucesso das tarefas em 2-3% enquanto os custos de inferência aumentaram em 20%. Mesmo arquivos de contexto escritos por humanos melhoraram o sucesso em apenas aproximadamente 4%, enquanto ainda aumentaram significativamente os custos.

O Problema Central

Os pesquisadores descobriram que os agentes tratavam cada instrução nos arquivos de contexto como algo que deve ser executado. Em um experimento, quando eles reduziram os repositórios apenas ao arquivo de contexto gerado, o desempenho melhorou novamente. Isso indica que os agentes têm dificuldade em distinguir entre instruções essenciais e informações históricas irrelevantes.

Recomendações Práticas

O estudo recomenda incluir apenas informações que o agente genuinamente não pode descobrir por conta própria, mantendo o contexto mínimo. Isso é particularmente relevante para dados de comunicação como threads de e-mail, que podem parecer contexto, mas são frequentemente interpretados como instruções quando na verdade são ruído histórico.

Solução de API de Contexto

Para resolver esse problema, os pesquisadores desenvolveram uma API de contexto (iGPT) que se concentra no processamento de e-mails. A API:

Reconstrói threads de e-mail em gráficos de conversação antes que o contexto chegue ao modelo
Deduplica texto citado
Detecta quem disse o quê e quando
Retorna JSON estruturado em vez de texto bruto

Essa abordagem garante que os agentes recebam contexto filtrado em vez de históricos completos de conversação, melhorando sua capacidade de focar em informações relevantes.

📖 Leia a fonte completa: r/LocalLLaMA

Estudo da ETH Zurich: Contexto Excessivo Reduz o Desempenho de Agentes de IA para Programação

Principais Descobertas

O Problema Central

Recomendações Práticas

Solução de API de Contexto

👀 See Also

Código fonte do Claude Code supostamente vazado, revelando detalhes da arquitetura do agente

Anthropic Lança Controle Remoto para Código Claude

Claude Code v2.1.86: Cabeçalhos de sessão, correções de memória e otimizações de tokens

Assinaturas de IA Precisam de um Medidor Confiável: Um Chamado pela Transparência no Serviço