Pesquisa ETH Zurich: AGENTS.md Reduz Sucesso em 3%

Resultados da Pesquisa sobre Arquivos AGENTS.md

Um novo artigo de pesquisadores da ETH Zurich questiona a prática amplamente difundida na indústria de usar arquivos AGENTS.md com agentes de codificação de IA. O estudo, conduzido por Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev e Martin Vechev, fornece evidências empíricas de que esses arquivos de contexto frequentemente atrapalham em vez de ajudar os agentes de IA.

Metodologia e Testes

A equipe criou o AGENTbench, um novo conjunto de dados com 138 tarefas reais em Python obtidas de repositórios de nicho para evitar viés de benchmarks populares como o SWE-bench que os modelos de IA podem ter memorizado. Eles testaram quatro agentes: Claude 3.5 Sonnet, Codex GPT-5.2, GPT-5.1 mini e Qwen Code em três cenários:

Sem arquivo de contexto
Arquivo AGENTS.md gerado por LLM
Arquivo AGENTS.md escrito por humanos

O desempenho foi medido usando três indicadores proxy: taxas de sucesso das tarefas (determinadas por testes unitários do repositório), número de etapas do agente e custos gerais de inferência.

Principais Resultados

Os arquivos de contexto gerados por LLM degradaram o desempenho, reduzindo as taxas de sucesso das tarefas em média 3% em comparação com não fornecer nenhum arquivo de contexto. Esses arquivos aumentaram consistentemente o número de etapas que os agentes realizaram, elevando os custos de inferência em mais de 20%.

Os arquivos escritos por humanos mostraram ganhos marginais com um aumento médio de 4% na taxa de sucesso das tarefas no AGENTbench, mas isso veio com um aumento paralelo nas etapas, elevando os custos em até 19%.

Incluir visões gerais da arquitetura ou explicações da estrutura do repositório nos arquivos AGENTS.md não reduziu o tempo que os modelos gastaram localizando arquivos relevantes para as tarefas.

Análise de Comportamento

A análise de rastreamento revelou que os agentes geralmente seguiram as instruções nos arquivos AGENTS.md, levando-os a executar mais testes, ler mais arquivos, realizar mais buscas grep e fazer mais verificações de qualidade de código. Embora minucioso, esse comportamento frequentemente era desnecessário para resolver tarefas específicas, forçando os modelos de raciocínio a "pensar" mais sem produzir patches finais melhores.

Recomendações Práticas

Os pesquisadores recomendam omitir completamente os arquivos de contexto gerados por LLM e limitar as instruções escritas por humanos a detalhes não inferíveis, como ferramentas altamente específicas ou comandos de construção personalizados. Eles observam que, embora 60.000 repositórios de código aberto atualmente contenham arquivos de contexto como AGENTS.md, e muitas estruturas de agentes apresentem comandos integrados para gerá-los automaticamente, esses arquivos têm apenas efeitos marginais no comportamento do agente.

📖 Leia a fonte completa: HN AI Agents