El benchmark muestra que el motor de contexto reduce los costos del agente de codificación de IA en 3 veces en SWE-bench.

✍️ OpenClawRadar📅 Publicado: 23 de marzo de 2026🔗 Source
El benchmark muestra que el motor de contexto reduce los costos del agente de codificación de IA en 3 veces en SWE-bench.
Ad

Un desarrollador evaluó comparativamente cuatro agentes de IA para codificación en SWE-bench Verified utilizando el mismo modelo Claude Opus 4.5, con la gestión de contexto como única variable. Los resultados muestran diferencias significativas de costo para niveles de rendimiento similares.

Configuración de la evaluación

La prueba utilizó un subconjunto estratificado de 100 tareas de SWE-bench Verified con los 12 repositorios representados proporcionalmente. Todos los agentes ejecutaron Claude Opus 4.5 con el mismo presupuesto de $3/tarea y límite de 250 turnos. La única diferencia fue la capa de contexto frente al modelo.

Resultados

  • Motor de contexto + Claude Code: 73.0% Pass@1, $0.67/tarea
  • Live-SWE-Agent: 72.0% Pass@1, $0.86/tarea
  • OpenHands: 70.0% Pass@1, $1.77/tarea
  • Sonar Foundation: 70.0% Pass@1, $1.98/tarea

La configuración más costosa cuesta 3 veces más por tarea para una tasa de resolución más baja. Ocho tareas fueron resueltas solo por la configuración con la capa de contexto: errores que el modelo no pudo corregir sin ver el código correcto.

Limitaciones

En matplotlib (código con mucha representación visual y salida gráfica), el motor de contexto obtuvo un 43% mientras que Sonar Foundation alcanzó el 86%. El contexto basado en grafos es menos efectivo cuando el código relevante no sigue cadenas de dependencia.

Ad

Cómo funciona la capa de contexto

En lugar de dejar que Claude lea archivos completos, pre-indexa la base de código en un grafo de dependencias usando tree-sitter + SQLite (30 lenguajes soportados) y devuelve una cápsula de contexto clasificada: código fuente completo para las funciones que importan, firmas esqueletizadas para todo lo conectado a ellas. El agente comienza cada tarea ya sabiendo qué es relevante.

Incluye memoria de sesión que persiste entre sesiones a través de MCP. Cuando el código cambia, las observaciones anteriores se marcan automáticamente como obsoletas, para que el agente no vuelva a explorar las mismas cosas.

El sistema es 100% local sin nube, sin cuenta y sin que el código salga de tu máquina. Funciona con Claude Code y otros 11 agentes a través de MCP.

Disponibilidad de código abierto

El entorno de evaluación, todos los registros de evaluación, resultados por instancia y scripts de comparación están disponibles en GitHub en github.com/Vexp-ai/vexp-swe-bench. La herramienta en sí está disponible en vexp.dev con un nivel gratuito, extensión de VS Code o CLI. Los resultados completos de la evaluación con gráficos están en vexp.dev/benchmark.

📖 Read the full source: r/ClaudeAI

Ad

👀 Ver también

audio-analyzer-rs: Un servidor MCP para análisis de audio con Claude
Herramientas

audio-analyzer-rs: Un servidor MCP para análisis de audio con Claude

Un desarrollador creó audio-analyzer-rs, un servidor MCP en Rust que le da a Claude acceso directo al análisis de archivos de audio, incluyendo mediciones espectrales, armónicas, de ritmo, de sonoridad LUFS (EBU R128) y de rango dinámico. La herramienta es eficiente en tokens, con Claude comenzando a baja resolución y ampliando pequeños fragmentos según sea necesario.

OpenClawRadar
Complemento de Estudio de Diseño para Claude Code Agrega Equipo de Diseño Virtual con 9 Roles y 16 Comandos
Herramientas

Complemento de Estudio de Diseño para Claude Code Agrega Equipo de Diseño Virtual con 9 Roles y 16 Comandos

Un nuevo complemento de Claude Code llamado Design Studio simula un equipo de diseño completo con 9 roles especializados, 16 comandos de barra y 5 agentes. Detecta automáticamente las pilas tecnológicas e incluye más de 8,000 líneas de conocimiento de diseño en archivos de referencia.

OpenClawRadar
clarp: Reemplazo gratuito y de código abierto para Claude - Precios por consumo antes del 15 de junio
Herramientas

clarp: Reemplazo gratuito y de código abierto para Claude - Precios por consumo antes del 15 de junio

Claude -p adopta precios por consumo el 15 de junio. clarp es un CLI open source que lo reemplaza para flujos locales — solo cambia el nombre del binario de claude a clarp.

OpenClawRadar
Alternativas a los Agentes de Codificación de IA tras la Eliminación del Plan de Claude
Herramientas

Alternativas a los Agentes de Codificación de IA tras la Eliminación del Plan de Claude

Un usuario de Reddit probó varias alternativas de agentes de codificación con IA después de que Claude descontinuara su plan de codificación, incluyendo Kimi ($20/mes), Minimax ($10/mes), Z.AI GLM ($10/mes), Stepfun ($6-10/mes), Mistral ($15/mes) y Arcee Trinity (basado en API).

OpenClawRadar