413 Mil Execuções de Agentes de IA Revelam Segredos do Sucesso

Uma nova análise de 413.278 execuções de agentes de engenharia de software de IA do conjunto de dados CoderForge-Preview revela o que separa execuções bem-sucedidas das falhas. O estudo examinou 17 bilhões de tokens de dados comportamentais, comparando execuções aprovadas versus reprovadas em problemas idênticos.

Principais Descobertas dos Dados

A análise mostra que práticas comuns de engenharia de software humana podem realmente reduzir o desempenho dos agentes de IA. Aqui estão os padrões específicos que surgiram:

Pare de dizer aos agentes para "olhar ao redor primeiro": Forçar agentes a usar grep ou visualizar arquivos antes de editar reduz a eficácia. Ao contrário de humanos com memória de trabalho limitada, os agentes já têm a base de código em sua janela de contexto. Turnos iniciais gastos em busca e exploração indicam que o agente está se debatendo em vez de aprendendo.
Abordagens orientadas a testes são obrigatórias: O maior preditor de execuções bem-sucedidas é a fração de comandos bash iniciais dedicados exclusivamente à execução de testes. Agentes não devem editar cegamente—prompts do sistema devem impor a execução da suíte de testes imediatamente.
Mantenha os agentes sob controle rigoroso: Se um agente tenta editar 3 ou mais arquivos nos primeiros 30% de sua execução, as taxas de sucesso caem significativamente. Espalhar edições por vários arquivos indica confusão. Force os agentes a corrigir uma coisa de cada vez.
Perseverança é uma ilusão: Se um agente executa exatamente o mesmo comando bash duas vezes no início da execução, ele está preso em um loop em vez de "pensando muito" ou "tentando novamente". Interrompa o loop ou reinicie a execução.

Mudanças Práticas de Implementação

A análise recomenda mudanças específicas na estruturação dos agentes:

Pare de usar prompts como: "Explore a base de código, leia os arquivos relevantes e descubra o bug."
Em vez disso, use: "Execute a suíte de testes imediatamente para verificar a linha de base. Faça alterações direcionadas em no máximo 1 ou 2 arquivos. Execute os testes novamente."

A principal percepção é parar de projetar limitações humanas em LLMs. Deixe-os usar suas enormes janelas de contexto e force-os a provar seu trabalho com testes.

📖 Read the full source: r/LocalLLaMA

Análise de 413 Mil Execuções de Agentes de IA Revela o que os Faz Ter Sucesso

Principais Descobertas dos Dados

Mudanças Práticas de Implementação

👀 See Also

Claude-Code v2.1.84 adiciona ferramenta PowerShell, variáveis de ambiente e múltiplas correções

Estudo de Stanford: Professores de Direito Preferem Respostas de IA às de Colegas 75% das Vezes

Fundador da OpenClaw, Peter Steinberger, no Radar: Insights da Entrevista da YC

Observações de uma Competição com 6.000 Agentes de IA em Tarefas do Mundo Real