Mecanismo de Contexto Reduz Custos em 3x em Agentes de IA no SWE-bench

Um desenvolvedor avaliou quatro agentes de IA para codificação no SWE-bench Verified usando o mesmo modelo Claude Opus 4.5, com o gerenciamento de contexto como única variável. Os resultados mostram diferenças significativas de custo para níveis de desempenho similares.

Configuração do benchmark

O teste usou um subconjunto estratificado de 100 tarefas do SWE-bench Verified com todos os 12 repositórios representados proporcionalmente. Todos os agentes executaram Claude Opus 4.5 com o mesmo orçamento de $3/tarefa e limite de 250 interações. A única diferença foi a camada de contexto em frente ao modelo.

Resultados

Mecanismo de contexto + Claude Code: 73,0% Pass@1, $0,67/tarefa
Live-SWE-Agent: 72,0% Pass@1, $0,86/tarefa
OpenHands: 70,0% Pass@1, $1,77/tarefa
Sonar Foundation: 70,0% Pass@1, $1,98/tarefa

A configuração mais cara custa 3x mais por tarefa para uma taxa de resolução inferior. Oito tarefas foram resolvidas apenas pela configuração com a camada de contexto - bugs que o modelo não conseguiu corrigir sem ver o código correto.

Limitações

No matplotlib (código com renderização intensa e saída visual), o mecanismo de contexto obteve 43% enquanto o Sonar Foundation alcançou 86%. O contexto baseado em grafos é menos eficaz quando o código relevante não segue cadeias de dependência.

Como a camada de contexto funciona

Em vez de permitir que o Claude leia arquivos inteiros, ela pré-indexa a base de código em um grafo de dependência usando tree-sitter + SQLite (30 linguagens suportadas) e retorna uma cápsula de contexto classificada: código-fonte completo para funções importantes, assinaturas esqueletizadas para tudo conectado a elas. O agente começa cada tarefa já sabendo o que é relevante.

Inclui memória de sessão que persiste entre sessões via MCP. Quando o código muda, observações anteriores são marcadas como desatualizadas automaticamente, para que o agente não re-explore as mesmas coisas.

O sistema é 100% local sem nuvem, sem conta e sem código saindo da sua máquina. Funciona com Claude Code e 11 outros agentes via MCP.

Disponibilidade de código aberto

A estrutura de benchmark, todos os logs de avaliação, resultados por instância e scripts de comparação estão disponíveis no GitHub em github.com/Vexp-ai/vexp-swe-bench. A ferramenta em si está disponível em vexp.dev com um nível gratuito, extensão VS Code ou CLI. Resultados completos do benchmark com gráficos estão em vexp.dev/benchmark.

📖 Read the full source: r/ClaudeAI