Resultados de Benchmark: Claude Agent Swarm com Sistema de Memória Apresenta Economia de 30-43% em Custos de Tokens

✍️ OpenClawRadar📅 Publicado: March 8, 2026🔗 Source
Resultados de Benchmark: Claude Agent Swarm com Sistema de Memória Apresenta Economia de 30-43% em Custos de Tokens
Ad

Benchmark do Sistema de Memória para Enxames de Agentes Claude

Um desenvolvedor vem construindo um sistema de memória chamado Stompy há nove meses, evoluindo de arquivos para SQLite e depois para PostgreSQL. O objetivo era minimizar o uso de tokens ao executar enxames de agentes Claude. Eles realizaram um benchmark comparando o desempenho com e sem o sistema de memória.

Configuração do Teste

O benchmark utilizou uma tarefa de programação de 40 pontos que exigia um recurso completo de reservas com backend, frontend e testes. Um enxame de 6 agentes foi testado com três modelos Claude diferentes como líder: Sonnet 4.6, Opus 4.6 e Haiku 4.5. Todos os testes usaram a mesma base de código, os mesmos colegas de equipe e o mesmo sistema de pontuação. Os agentes colegas sempre executaram Opus, independentemente do modelo líder.

Resultados do Benchmark

  • Sonnet 4.6 + memória: 40/40, US$ 3,98, 6,5min, 2 rodadas
  • Sonnet 4.6 sem memória: 40/40, US$ 7,04, 9,6min, 4 rodadas
  • Opus 4.6 + memória: 40/40, US$ 4,34, 9,6min, 29 rodadas
  • Opus 4.6 sem memória: 40/40, US$ 7,65, 10,0min, 70 rodadas
  • Haiku 4.5 + memória: 39/40, US$ 4,95, 7,5min, 2 rodadas
  • Haiku 4.5 sem memória: 0/40, US$ 3,97, 5,8min, 3 rodadas
Ad

Principais Descobertas

Opus e Sonnet com memória economizaram cerca de 43% no custo em comparação com a execução sem memória. O desenvolvedor observa que esses modelos são inteligentes o suficiente para completar a tarefa sem memória, mas gastam tokens explorando a base de código, o que o sistema de memória elimina.

O resultado do Haiku foi inesperado: marcou 0/40 sem memória, mas 39/40 com memória. O desenvolvedor observou que o Haiku não conseguia coordenar os agentes colegas Opus sem entender a estrutura do projeto, mas se tornou um líder competente com acesso à memória.

Sonnet com memória foi a melhor configuração geral, superando o Opus sem memória em todas as métricas com aproximadamente metade do custo. A conclusão é que disponibilizar o conhecimento do projeto para o modelo importa mais do que usar modelos caros.

Detalhes Técnicos

O sistema de memória é chamado Stompy e é baseado em MCP/API/CLI, funcionando com Claude Code. A configuração do benchmark está disponível no GitHub para outros usarem ou melhorarem. O desenvolvedor observa que até agora é n=1 por condição, com mais execuções planejadas.

📖 Leia a fonte completa: r/ClaudeAI

Ad

👀 See Also

Abordagem de Debate Multi-Agente Melhora a Qualidade do Raciocínio em LLM
Tools

Abordagem de Debate Multi-Agente Melhora a Qualidade do Raciocínio em LLM

Um desenvolvedor experimentou uma abordagem de debate multiagente usando o CyrcloAI, onde diferentes agentes de IA assumem papéis como analista, crítico e sintetizador para criticar as respostas uns dos outros antes de produzir uma resposta final, resultando em saídas mais estruturadas e deliberadas.

OpenClawRadar
Total Recall: Conhecimento Local de Grafos para Histórias de Conversação de Código do Claude
Tools

Total Recall: Conhecimento Local de Grafos para Histórias de Conversação de Código do Claude

Total Recall é um sistema de código aberto que importa transcrições de conversas em JSONL do Claude Code para um banco de dados SQLite com busca de texto completo e embeddings vetoriais, tornando o histórico de conversas pesquisável entre sessões. Ele recupera trechos reais de conversas com contexto consciente do DAG e inclui um importador do ChatGPT.

OpenClawRadar
Substituindo pipelines de recuperação complexos por comandos simples de shell do git para agentes LLM
Tools

Substituindo pipelines de recuperação complexos por comandos simples de shell do git para agentes LLM

Um desenvolvedor substituiu todo o seu pipeline de recuperação de agentes de IA (sentence-transformers, rank-bm25, pipeline de LLM em duas etapas) por uma única ferramenta que permite ao agente executar comandos shell somente leitura em um repositório git, reduzindo o tamanho da imagem Docker em ~3GB e eliminando problemas de timeout.

OpenClawRadar
ClawHost Open-Source OpenClaw Implantação com Um Clique Atinge Mais de 200 Estrelas no GitHub
Tools

ClawHost Open-Source OpenClaw Implantação com Um Clique Atinge Mais de 200 Estrelas no GitHub

ClawHost, uma ferramenta de código aberto para instalação em um clique do OpenClaw com acesso e controle total do servidor, atingiu mais de 200 estrelas no GitHub. O projeto aborda problemas com wrappers comerciais instáveis, fornecendo uma solução gratuita e auto-hospedável.

OpenClawRadar