Estudo da ETH Zurich Questiona o Valor de Arquivos AGENTS.md para Agentes de IA de Codificação

✍️ OpenClawRadar📅 Publicado: March 8, 2026🔗 Source
Estudo da ETH Zurich Questiona o Valor de Arquivos AGENTS.md para Agentes de IA de Codificação
Ad

Resultados da Pesquisa sobre Arquivos AGENTS.md

Um novo artigo de pesquisadores da ETH Zurich questiona a prática amplamente difundida na indústria de usar arquivos AGENTS.md com agentes de codificação de IA. O estudo, conduzido por Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev e Martin Vechev, fornece evidências empíricas de que esses arquivos de contexto frequentemente atrapalham em vez de ajudar os agentes de IA.

Metodologia e Testes

A equipe criou o AGENTbench, um novo conjunto de dados com 138 tarefas reais em Python obtidas de repositórios de nicho para evitar viés de benchmarks populares como o SWE-bench que os modelos de IA podem ter memorizado. Eles testaram quatro agentes: Claude 3.5 Sonnet, Codex GPT-5.2, GPT-5.1 mini e Qwen Code em três cenários:

  • Sem arquivo de contexto
  • Arquivo AGENTS.md gerado por LLM
  • Arquivo AGENTS.md escrito por humanos

O desempenho foi medido usando três indicadores proxy: taxas de sucesso das tarefas (determinadas por testes unitários do repositório), número de etapas do agente e custos gerais de inferência.

Principais Resultados

Os arquivos de contexto gerados por LLM degradaram o desempenho, reduzindo as taxas de sucesso das tarefas em média 3% em comparação com não fornecer nenhum arquivo de contexto. Esses arquivos aumentaram consistentemente o número de etapas que os agentes realizaram, elevando os custos de inferência em mais de 20%.

Os arquivos escritos por humanos mostraram ganhos marginais com um aumento médio de 4% na taxa de sucesso das tarefas no AGENTbench, mas isso veio com um aumento paralelo nas etapas, elevando os custos em até 19%.

Incluir visões gerais da arquitetura ou explicações da estrutura do repositório nos arquivos AGENTS.md não reduziu o tempo que os modelos gastaram localizando arquivos relevantes para as tarefas.

Ad

Análise de Comportamento

A análise de rastreamento revelou que os agentes geralmente seguiram as instruções nos arquivos AGENTS.md, levando-os a executar mais testes, ler mais arquivos, realizar mais buscas grep e fazer mais verificações de qualidade de código. Embora minucioso, esse comportamento frequentemente era desnecessário para resolver tarefas específicas, forçando os modelos de raciocínio a "pensar" mais sem produzir patches finais melhores.

Recomendações Práticas

Os pesquisadores recomendam omitir completamente os arquivos de contexto gerados por LLM e limitar as instruções escritas por humanos a detalhes não inferíveis, como ferramentas altamente específicas ou comandos de construção personalizados. Eles observam que, embora 60.000 repositórios de código aberto atualmente contenham arquivos de contexto como AGENTS.md, e muitas estruturas de agentes apresentem comandos integrados para gerá-los automaticamente, esses arquivos têm apenas efeitos marginais no comportamento do agente.

📖 Leia a fonte completa: HN AI Agents

Ad

👀 See Also

Claude para Word Add-in: Evidência Encontrada na API de Análises
News

Claude para Word Add-in: Evidência Encontrada na API de Análises

A API de análise da Anthropic agora retorna métricas para Claude para Word junto com os suplementos existentes do Excel e PowerPoint, indicando que a integração do Word está em desenvolvimento. A API mostra contagens de uso zero para o Word, sugerindo que ainda não está disponível publicamente.

OpenClawRadar
Modelo de Marketing Mix Multiagente da Hershey's é Executado Mensalmente em vez de Trimestralmente
News

Modelo de Marketing Mix Multiagente da Hershey's é Executado Mensalmente em vez de Trimestralmente

Hershey usa Mutinex (sistema multiagente baseado em Claude/Gemini) e Tracer para automatizar MMM, reduzindo ciclos de análise de anuais para mensais em gastos de marketing de US$ 2 bilhões.

OpenClawRadar
Sistema do Agente OpenClaw Quebrado Após Atualizações Recentes
News

Sistema do Agente OpenClaw Quebrado Após Atualizações Recentes

Atualizações recentes do OpenClaw quebraram a funcionalidade principal dos agentes, com usuários relatando que os agentes não podem ser criados ou executados de forma confiável. O sistema anteriormente permitia criar agentes, fazê-los aparecer corretamente, executar fluxos de trabalho e usá-los para tarefas reais.

OpenClawRadar
Mudanças Frequentes de Quebra no OpenClaw: Procedimentos de Atualização e Problemas Atuais
News

Mudanças Frequentes de Quebra no OpenClaw: Procedimentos de Atualização e Problemas Atuais

A OpenClaw lançou 13 versões pontuais apenas em março de 2026, com mudanças disruptivas ocorrendo a cada 2-3 semanas. A fonte fornece procedimentos específicos de atualização e detalha problemas atuais na versão 3.28, incluindo alterações na autenticação localhost e bugs de regressão.

OpenClawRadar