Benchmark mostra que o mecanismo de contexto reduz custos de agentes de IA para codificação em 3x no SWE-bench

Um desenvolvedor avaliou quatro agentes de IA para codificação no SWE-bench Verified usando o mesmo modelo Claude Opus 4.5, com o gerenciamento de contexto como única variável. Os resultados mostram diferenças significativas de custo para níveis de desempenho similares.
Configuração do benchmark
O teste usou um subconjunto estratificado de 100 tarefas do SWE-bench Verified com todos os 12 repositórios representados proporcionalmente. Todos os agentes executaram Claude Opus 4.5 com o mesmo orçamento de $3/tarefa e limite de 250 interações. A única diferença foi a camada de contexto em frente ao modelo.
Resultados
- Mecanismo de contexto + Claude Code: 73,0% Pass@1, $0,67/tarefa
- Live-SWE-Agent: 72,0% Pass@1, $0,86/tarefa
- OpenHands: 70,0% Pass@1, $1,77/tarefa
- Sonar Foundation: 70,0% Pass@1, $1,98/tarefa
A configuração mais cara custa 3x mais por tarefa para uma taxa de resolução inferior. Oito tarefas foram resolvidas apenas pela configuração com a camada de contexto - bugs que o modelo não conseguiu corrigir sem ver o código correto.
Limitações
No matplotlib (código com renderização intensa e saída visual), o mecanismo de contexto obteve 43% enquanto o Sonar Foundation alcançou 86%. O contexto baseado em grafos é menos eficaz quando o código relevante não segue cadeias de dependência.
Como a camada de contexto funciona
Em vez de permitir que o Claude leia arquivos inteiros, ela pré-indexa a base de código em um grafo de dependência usando tree-sitter + SQLite (30 linguagens suportadas) e retorna uma cápsula de contexto classificada: código-fonte completo para funções importantes, assinaturas esqueletizadas para tudo conectado a elas. O agente começa cada tarefa já sabendo o que é relevante.
Inclui memória de sessão que persiste entre sessões via MCP. Quando o código muda, observações anteriores são marcadas como desatualizadas automaticamente, para que o agente não re-explore as mesmas coisas.
O sistema é 100% local sem nuvem, sem conta e sem código saindo da sua máquina. Funciona com Claude Code e 11 outros agentes via MCP.
Disponibilidade de código aberto
A estrutura de benchmark, todos os logs de avaliação, resultados por instância e scripts de comparação estão disponíveis no GitHub em github.com/Vexp-ai/vexp-swe-bench. A ferramenta em si está disponível em vexp.dev com um nível gratuito, extensão VS Code ou CLI. Resultados completos do benchmark com gráficos estão em vexp.dev/benchmark.
📖 Read the full source: r/ClaudeAI
👀 See Also

OpenClaw como Interface de Infraestrutura como Código para Gerenciamento de Home Lab
O OpenClaw evoluiu de um gadget de IA legal para a interface principal de gerenciamento de computadores, especialmente durante reconstruções e atualizações de home labs. A ferramenta opera dentro de sua própria VM enquanto fornece acesso direto à infraestrutura da sua máquina.

dead-letter: Conversor Local de .eml para .md com CLI, Web UI e Servidor MCP
dead-letter normaliza exportações de e-mail para Markdown com front matter YAML, personalizável. Oferece quatro modos de acesso: CLI, biblioteca Python, interface web e um servidor MCP para integração direta com Claude Desktop, Claude Code e Codex.

ClankerRank: Um Benchmark para Habilidades de Codificação Assistida por IA com Claude Haiku
Um desenvolvedor criou o ClankerRank para medir a proficiência em programação assistida por IA usando o modelo Haiku 4.5 do Claude. A plataforma apresenta bugs idênticos aos usuários, pontua as saídas com suítes de testes ocultas e revelou lacunas claras de habilidade entre centenas de participantes.

nan-forget: Memória de codificação de IA local em um único arquivo SQLite
nan-forget é uma ferramenta de memória para agentes de IA de codificação que armazena contexto em um único arquivo SQLite (~3MB) sem serviços em segundo plano. Ela usa um pipeline de recuperação de 3 estágios e funciona no Claude Code, Cursor e terminal via CLI.