Motor de contexto reduce 3x costos en benchmarks SWE-bench con Claude

Un desarrollador evaluó comparativamente cuatro agentes de IA para codificación en SWE-bench Verified utilizando el mismo modelo Claude Opus 4.5, con la gestión de contexto como única variable. Los resultados muestran diferencias significativas de costo para niveles de rendimiento similares.

Configuración de la evaluación

La prueba utilizó un subconjunto estratificado de 100 tareas de SWE-bench Verified con los 12 repositorios representados proporcionalmente. Todos los agentes ejecutaron Claude Opus 4.5 con el mismo presupuesto de $3/tarea y límite de 250 turnos. La única diferencia fue la capa de contexto frente al modelo.

Resultados

Motor de contexto + Claude Code: 73.0% Pass@1, $0.67/tarea
Live-SWE-Agent: 72.0% Pass@1, $0.86/tarea
OpenHands: 70.0% Pass@1, $1.77/tarea
Sonar Foundation: 70.0% Pass@1, $1.98/tarea

La configuración más costosa cuesta 3 veces más por tarea para una tasa de resolución más baja. Ocho tareas fueron resueltas solo por la configuración con la capa de contexto: errores que el modelo no pudo corregir sin ver el código correcto.

Limitaciones

En matplotlib (código con mucha representación visual y salida gráfica), el motor de contexto obtuvo un 43% mientras que Sonar Foundation alcanzó el 86%. El contexto basado en grafos es menos efectivo cuando el código relevante no sigue cadenas de dependencia.

Cómo funciona la capa de contexto

En lugar de dejar que Claude lea archivos completos, pre-indexa la base de código en un grafo de dependencias usando tree-sitter + SQLite (30 lenguajes soportados) y devuelve una cápsula de contexto clasificada: código fuente completo para las funciones que importan, firmas esqueletizadas para todo lo conectado a ellas. El agente comienza cada tarea ya sabiendo qué es relevante.

Incluye memoria de sesión que persiste entre sesiones a través de MCP. Cuando el código cambia, las observaciones anteriores se marcan automáticamente como obsoletas, para que el agente no vuelva a explorar las mismas cosas.

El sistema es 100% local sin nube, sin cuenta y sin que el código salga de tu máquina. Funciona con Claude Code y otros 11 agentes a través de MCP.

Disponibilidad de código abierto

El entorno de evaluación, todos los registros de evaluación, resultados por instancia y scripts de comparación están disponibles en GitHub en github.com/Vexp-ai/vexp-swe-bench. La herramienta en sí está disponible en vexp.dev con un nivel gratuito, extensión de VS Code o CLI. Los resultados completos de la evaluación con gráficos están en vexp.dev/benchmark.

📖 Read the full source: r/ClaudeAI

El benchmark muestra que el motor de contexto reduce los costos del agente de codificación de IA en 3 veces en SWE-bench.

Configuración de la evaluación

Resultados

Limitaciones

Cómo funciona la capa de contexto

Disponibilidad de código abierto

👀 Ver también

alogin: Una Puerta de Enlace de Seguridad Basada en Go para Agentes de IA con Participación Humana

MemAware Benchmark Prueba la Memoria de la IA Más Allá de la Búsqueda por Palabras Clave

ClawControl v1.3.1 añade soporte multimedia, dictado por voz y empaquetado para Linux.

codebase-md: La herramienta genera automáticamente CLAUDE.md con mantenimiento de git hook