Benchmark mostra que o mecanismo de contexto reduz custos de agentes de IA para codificação em 3x no SWE-bench

✍️ OpenClawRadar📅 Publicado: March 23, 2026🔗 Source
Benchmark mostra que o mecanismo de contexto reduz custos de agentes de IA para codificação em 3x no SWE-bench
Ad

Um desenvolvedor avaliou quatro agentes de IA para codificação no SWE-bench Verified usando o mesmo modelo Claude Opus 4.5, com o gerenciamento de contexto como única variável. Os resultados mostram diferenças significativas de custo para níveis de desempenho similares.

Configuração do benchmark

O teste usou um subconjunto estratificado de 100 tarefas do SWE-bench Verified com todos os 12 repositórios representados proporcionalmente. Todos os agentes executaram Claude Opus 4.5 com o mesmo orçamento de $3/tarefa e limite de 250 interações. A única diferença foi a camada de contexto em frente ao modelo.

Resultados

  • Mecanismo de contexto + Claude Code: 73,0% Pass@1, $0,67/tarefa
  • Live-SWE-Agent: 72,0% Pass@1, $0,86/tarefa
  • OpenHands: 70,0% Pass@1, $1,77/tarefa
  • Sonar Foundation: 70,0% Pass@1, $1,98/tarefa

A configuração mais cara custa 3x mais por tarefa para uma taxa de resolução inferior. Oito tarefas foram resolvidas apenas pela configuração com a camada de contexto - bugs que o modelo não conseguiu corrigir sem ver o código correto.

Limitações

No matplotlib (código com renderização intensa e saída visual), o mecanismo de contexto obteve 43% enquanto o Sonar Foundation alcançou 86%. O contexto baseado em grafos é menos eficaz quando o código relevante não segue cadeias de dependência.

Ad

Como a camada de contexto funciona

Em vez de permitir que o Claude leia arquivos inteiros, ela pré-indexa a base de código em um grafo de dependência usando tree-sitter + SQLite (30 linguagens suportadas) e retorna uma cápsula de contexto classificada: código-fonte completo para funções importantes, assinaturas esqueletizadas para tudo conectado a elas. O agente começa cada tarefa já sabendo o que é relevante.

Inclui memória de sessão que persiste entre sessões via MCP. Quando o código muda, observações anteriores são marcadas como desatualizadas automaticamente, para que o agente não re-explore as mesmas coisas.

O sistema é 100% local sem nuvem, sem conta e sem código saindo da sua máquina. Funciona com Claude Code e 11 outros agentes via MCP.

Disponibilidade de código aberto

A estrutura de benchmark, todos os logs de avaliação, resultados por instância e scripts de comparação estão disponíveis no GitHub em github.com/Vexp-ai/vexp-swe-bench. A ferramenta em si está disponível em vexp.dev com um nível gratuito, extensão VS Code ou CLI. Resultados completos do benchmark com gráficos estão em vexp.dev/benchmark.

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

OpenClaw como Interface de Infraestrutura como Código para Gerenciamento de Home Lab
Tools

OpenClaw como Interface de Infraestrutura como Código para Gerenciamento de Home Lab

O OpenClaw evoluiu de um gadget de IA legal para a interface principal de gerenciamento de computadores, especialmente durante reconstruções e atualizações de home labs. A ferramenta opera dentro de sua própria VM enquanto fornece acesso direto à infraestrutura da sua máquina.

OpenClawRadar
dead-letter: Conversor Local de .eml para .md com CLI, Web UI e Servidor MCP
Tools

dead-letter: Conversor Local de .eml para .md com CLI, Web UI e Servidor MCP

dead-letter normaliza exportações de e-mail para Markdown com front matter YAML, personalizável. Oferece quatro modos de acesso: CLI, biblioteca Python, interface web e um servidor MCP para integração direta com Claude Desktop, Claude Code e Codex.

OpenClawRadar
ClankerRank: Um Benchmark para Habilidades de Codificação Assistida por IA com Claude Haiku
Tools

ClankerRank: Um Benchmark para Habilidades de Codificação Assistida por IA com Claude Haiku

Um desenvolvedor criou o ClankerRank para medir a proficiência em programação assistida por IA usando o modelo Haiku 4.5 do Claude. A plataforma apresenta bugs idênticos aos usuários, pontua as saídas com suítes de testes ocultas e revelou lacunas claras de habilidade entre centenas de participantes.

OpenClawRadar
nan-forget: Memória de codificação de IA local em um único arquivo SQLite
Tools

nan-forget: Memória de codificação de IA local em um único arquivo SQLite

nan-forget é uma ferramenta de memória para agentes de IA de codificação que armazena contexto em um único arquivo SQLite (~3MB) sem serviços em segundo plano. Ela usa um pipeline de recuperação de 3 estágios e funciona no Claude Code, Cursor e terminal via CLI.

OpenClawRadar