Estudo da ETH Zurich Questiona o Valor de Arquivos AGENTS.md para Agentes de IA de Codificação

Resultados da Pesquisa sobre Arquivos AGENTS.md
Um novo artigo de pesquisadores da ETH Zurich questiona a prática amplamente difundida na indústria de usar arquivos AGENTS.md com agentes de codificação de IA. O estudo, conduzido por Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev e Martin Vechev, fornece evidências empíricas de que esses arquivos de contexto frequentemente atrapalham em vez de ajudar os agentes de IA.
Metodologia e Testes
A equipe criou o AGENTbench, um novo conjunto de dados com 138 tarefas reais em Python obtidas de repositórios de nicho para evitar viés de benchmarks populares como o SWE-bench que os modelos de IA podem ter memorizado. Eles testaram quatro agentes: Claude 3.5 Sonnet, Codex GPT-5.2, GPT-5.1 mini e Qwen Code em três cenários:
- Sem arquivo de contexto
- Arquivo AGENTS.md gerado por LLM
- Arquivo AGENTS.md escrito por humanos
O desempenho foi medido usando três indicadores proxy: taxas de sucesso das tarefas (determinadas por testes unitários do repositório), número de etapas do agente e custos gerais de inferência.
Principais Resultados
Os arquivos de contexto gerados por LLM degradaram o desempenho, reduzindo as taxas de sucesso das tarefas em média 3% em comparação com não fornecer nenhum arquivo de contexto. Esses arquivos aumentaram consistentemente o número de etapas que os agentes realizaram, elevando os custos de inferência em mais de 20%.
Os arquivos escritos por humanos mostraram ganhos marginais com um aumento médio de 4% na taxa de sucesso das tarefas no AGENTbench, mas isso veio com um aumento paralelo nas etapas, elevando os custos em até 19%.
Incluir visões gerais da arquitetura ou explicações da estrutura do repositório nos arquivos AGENTS.md não reduziu o tempo que os modelos gastaram localizando arquivos relevantes para as tarefas.
Análise de Comportamento
A análise de rastreamento revelou que os agentes geralmente seguiram as instruções nos arquivos AGENTS.md, levando-os a executar mais testes, ler mais arquivos, realizar mais buscas grep e fazer mais verificações de qualidade de código. Embora minucioso, esse comportamento frequentemente era desnecessário para resolver tarefas específicas, forçando os modelos de raciocínio a "pensar" mais sem produzir patches finais melhores.
Recomendações Práticas
Os pesquisadores recomendam omitir completamente os arquivos de contexto gerados por LLM e limitar as instruções escritas por humanos a detalhes não inferíveis, como ferramentas altamente específicas ou comandos de construção personalizados. Eles observam que, embora 60.000 repositórios de código aberto atualmente contenham arquivos de contexto como AGENTS.md, e muitas estruturas de agentes apresentem comandos integrados para gerá-los automaticamente, esses arquivos têm apenas efeitos marginais no comportamento do agente.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Claude para Word Add-in: Evidência Encontrada na API de Análises
A API de análise da Anthropic agora retorna métricas para Claude para Word junto com os suplementos existentes do Excel e PowerPoint, indicando que a integração do Word está em desenvolvimento. A API mostra contagens de uso zero para o Word, sugerindo que ainda não está disponível publicamente.

Modelo de Marketing Mix Multiagente da Hershey's é Executado Mensalmente em vez de Trimestralmente
Hershey usa Mutinex (sistema multiagente baseado em Claude/Gemini) e Tracer para automatizar MMM, reduzindo ciclos de análise de anuais para mensais em gastos de marketing de US$ 2 bilhões.

Sistema do Agente OpenClaw Quebrado Após Atualizações Recentes
Atualizações recentes do OpenClaw quebraram a funcionalidade principal dos agentes, com usuários relatando que os agentes não podem ser criados ou executados de forma confiável. O sistema anteriormente permitia criar agentes, fazê-los aparecer corretamente, executar fluxos de trabalho e usá-los para tarefas reais.

Mudanças Frequentes de Quebra no OpenClaw: Procedimentos de Atualização e Problemas Atuais
A OpenClaw lançou 13 versões pontuais apenas em março de 2026, com mudanças disruptivas ocorrendo a cada 2-3 semanas. A fonte fornece procedimentos específicos de atualização e detalha problemas atuais na versão 3.28, incluindo alterações na autenticação localhost e bugs de regressão.