Resultados de Benchmark: Claude Agent Swarm com Sistema de Memória Apresenta Economia de 30-43% em Custos de Tokens

Benchmark do Sistema de Memória para Enxames de Agentes Claude
Um desenvolvedor vem construindo um sistema de memória chamado Stompy há nove meses, evoluindo de arquivos para SQLite e depois para PostgreSQL. O objetivo era minimizar o uso de tokens ao executar enxames de agentes Claude. Eles realizaram um benchmark comparando o desempenho com e sem o sistema de memória.
Configuração do Teste
O benchmark utilizou uma tarefa de programação de 40 pontos que exigia um recurso completo de reservas com backend, frontend e testes. Um enxame de 6 agentes foi testado com três modelos Claude diferentes como líder: Sonnet 4.6, Opus 4.6 e Haiku 4.5. Todos os testes usaram a mesma base de código, os mesmos colegas de equipe e o mesmo sistema de pontuação. Os agentes colegas sempre executaram Opus, independentemente do modelo líder.
Resultados do Benchmark
- Sonnet 4.6 + memória: 40/40, US$ 3,98, 6,5min, 2 rodadas
- Sonnet 4.6 sem memória: 40/40, US$ 7,04, 9,6min, 4 rodadas
- Opus 4.6 + memória: 40/40, US$ 4,34, 9,6min, 29 rodadas
- Opus 4.6 sem memória: 40/40, US$ 7,65, 10,0min, 70 rodadas
- Haiku 4.5 + memória: 39/40, US$ 4,95, 7,5min, 2 rodadas
- Haiku 4.5 sem memória: 0/40, US$ 3,97, 5,8min, 3 rodadas
Principais Descobertas
Opus e Sonnet com memória economizaram cerca de 43% no custo em comparação com a execução sem memória. O desenvolvedor observa que esses modelos são inteligentes o suficiente para completar a tarefa sem memória, mas gastam tokens explorando a base de código, o que o sistema de memória elimina.
O resultado do Haiku foi inesperado: marcou 0/40 sem memória, mas 39/40 com memória. O desenvolvedor observou que o Haiku não conseguia coordenar os agentes colegas Opus sem entender a estrutura do projeto, mas se tornou um líder competente com acesso à memória.
Sonnet com memória foi a melhor configuração geral, superando o Opus sem memória em todas as métricas com aproximadamente metade do custo. A conclusão é que disponibilizar o conhecimento do projeto para o modelo importa mais do que usar modelos caros.
Detalhes Técnicos
O sistema de memória é chamado Stompy e é baseado em MCP/API/CLI, funcionando com Claude Code. A configuração do benchmark está disponível no GitHub para outros usarem ou melhorarem. O desenvolvedor observa que até agora é n=1 por condição, com mais execuções planejadas.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Abordagem de Debate Multi-Agente Melhora a Qualidade do Raciocínio em LLM
Um desenvolvedor experimentou uma abordagem de debate multiagente usando o CyrcloAI, onde diferentes agentes de IA assumem papéis como analista, crítico e sintetizador para criticar as respostas uns dos outros antes de produzir uma resposta final, resultando em saídas mais estruturadas e deliberadas.

Total Recall: Conhecimento Local de Grafos para Histórias de Conversação de Código do Claude
Total Recall é um sistema de código aberto que importa transcrições de conversas em JSONL do Claude Code para um banco de dados SQLite com busca de texto completo e embeddings vetoriais, tornando o histórico de conversas pesquisável entre sessões. Ele recupera trechos reais de conversas com contexto consciente do DAG e inclui um importador do ChatGPT.

Substituindo pipelines de recuperação complexos por comandos simples de shell do git para agentes LLM
Um desenvolvedor substituiu todo o seu pipeline de recuperação de agentes de IA (sentence-transformers, rank-bm25, pipeline de LLM em duas etapas) por uma única ferramenta que permite ao agente executar comandos shell somente leitura em um repositório git, reduzindo o tamanho da imagem Docker em ~3GB e eliminando problemas de timeout.

ClawHost Open-Source OpenClaw Implantação com Um Clique Atinge Mais de 200 Estrelas no GitHub
ClawHost, uma ferramenta de código aberto para instalação em um clique do OpenClaw com acesso e controle total do servidor, atingiu mais de 200 estrelas no GitHub. O projeto aborda problemas com wrappers comerciais instáveis, fornecendo uma solução gratuita e auto-hospedável.