Motor de Contexto Agente: Ganho de 34,2% em Precisão

Automatizando o Ciclo de Melhoria de Agentes

Um desenvolvedor disponibilizou em código aberto um sistema que automatiza todo o processo de melhoria de agentes de IA, permitindo que eles se autoanalisem e se autocorrijam. A ferramenta aborda o problema comum de ler logs manualmente, ajustar prompts e torcer por melhorias.

O Processo de Cinco Etapas

O ciclo automatizado segue cinco etapas distintas:

Análise de rastreamento: Analisa rastreamentos para determinar não apenas o que falhou, mas o porquê, se é um problema pontual ou sistêmico e a que categoria de falha pertence. Produz uma análise estruturada dos modos de falha, em vez de apenas listas de erros.
Geração de avaliação: Cria avaliações específicas para validar a análise e medir as correções. Avaliações genéricas não capturam falhas específicas. O LLM como juiz serve como um plano B quando os dados de rastreamento não são estruturados o suficiente para avaliações determinísticas.
Medição de linha de base: Executa avaliações no agente atual antes de fazer correções para estabelecer linhas de base e validar as próprias avaliações.
Implementação de correção: Um desenvolvedor examina a análise e a base de código para decidir o que alterar. A decisão crucial é se a correção deve ser feita no prompt ou no código circundante (por exemplo, quando o sistema de execução lida mal com as saídas das ferramentas ou não passa o contexto correto).
Verificação e composição: Após as correções, as avaliações são executadas novamente para verificar a melhoria, com as alterações mantidas, revertidas ou retrabalhadas.

Detalhes de Implementação

A solução automatiza todo esse ciclo de ponta a ponta com um único comando que invoca um sistema agentivo de autoanálise. A análise de rastreamento ocorre em um ambiente REPL com agentes ajustados para esse caso de uso específico. O sistema fornece análise por meio de acesso CLI ao Claude Code para lidar com o resto usando um conjunto de habilidades.

Como o Claude pode residir na base de código, ele valida a análise e decide o melhor curso de ação na etapa de correção (prompt versus código).

Resultados e Operação

Testado no Tau-2 Bench usando apenas uma iteração, a primeira passada alcançou um ganho de precisão de 34,2% sem intervenção manual. O sistema foi projetado para compor melhorias: novos rastreamentos revelam novos problemas, levando a novas correções em cada ciclo.

Você pode configurá-lo para operar em ciclo totalmente autônomo. Existe uma opção com humano no ciclo se você quiser aprovar correções antes da etapa 4, mas nos testes, o desenvolvedor "simplesmente deixou rolar".

A ferramenta está disponível em código aberto no GitHub: https://github.com/kayba-ai/agentic-context-engine

📖 Read the full source: r/ClaudeAI

Motor de Contexto Agente: Loop de Melhoria Automatizada de Agentes com Ganho de Precisão de 34,2%

Automatizando o Ciclo de Melhoria de Agentes

O Processo de Cinco Etapas

Detalhes de Implementação

Resultados e Operação

👀 See Also

Synapse: Painel em Tempo Real para Visualização de Sessões do Agente de Código Claude

LLMSpend: Rastreador de custos de código aberto para SDKs da Anthropic e OpenAI

Modo Cowork do Claude explicado: execução de tarefas em nível de arquivo versus modos de bate-papo e código

Skales: Agente de IA para Desktop com Suporte a Ollama, 300MB de RAM em Inatividade