Claude Agent Swarm: Economia de 30-43% em Tokens com Memória

Benchmark do Sistema de Memória para Enxames de Agentes Claude

Um desenvolvedor vem construindo um sistema de memória chamado Stompy há nove meses, evoluindo de arquivos para SQLite e depois para PostgreSQL. O objetivo era minimizar o uso de tokens ao executar enxames de agentes Claude. Eles realizaram um benchmark comparando o desempenho com e sem o sistema de memória.

Configuração do Teste

O benchmark utilizou uma tarefa de programação de 40 pontos que exigia um recurso completo de reservas com backend, frontend e testes. Um enxame de 6 agentes foi testado com três modelos Claude diferentes como líder: Sonnet 4.6, Opus 4.6 e Haiku 4.5. Todos os testes usaram a mesma base de código, os mesmos colegas de equipe e o mesmo sistema de pontuação. Os agentes colegas sempre executaram Opus, independentemente do modelo líder.

Resultados do Benchmark

Sonnet 4.6 + memória: 40/40, US$ 3,98, 6,5min, 2 rodadas
Sonnet 4.6 sem memória: 40/40, US$ 7,04, 9,6min, 4 rodadas
Opus 4.6 + memória: 40/40, US$ 4,34, 9,6min, 29 rodadas
Opus 4.6 sem memória: 40/40, US$ 7,65, 10,0min, 70 rodadas
Haiku 4.5 + memória: 39/40, US$ 4,95, 7,5min, 2 rodadas
Haiku 4.5 sem memória: 0/40, US$ 3,97, 5,8min, 3 rodadas

Principais Descobertas

Opus e Sonnet com memória economizaram cerca de 43% no custo em comparação com a execução sem memória. O desenvolvedor observa que esses modelos são inteligentes o suficiente para completar a tarefa sem memória, mas gastam tokens explorando a base de código, o que o sistema de memória elimina.

O resultado do Haiku foi inesperado: marcou 0/40 sem memória, mas 39/40 com memória. O desenvolvedor observou que o Haiku não conseguia coordenar os agentes colegas Opus sem entender a estrutura do projeto, mas se tornou um líder competente com acesso à memória.

Sonnet com memória foi a melhor configuração geral, superando o Opus sem memória em todas as métricas com aproximadamente metade do custo. A conclusão é que disponibilizar o conhecimento do projeto para o modelo importa mais do que usar modelos caros.

Detalhes Técnicos

O sistema de memória é chamado Stompy e é baseado em MCP/API/CLI, funcionando com Claude Code. A configuração do benchmark está disponível no GitHub para outros usarem ou melhorarem. O desenvolvedor observa que até agora é n=1 por condição, com mais execuções planejadas.

📖 Leia a fonte completa: r/ClaudeAI