Actualización del Tablero de Líderes de SWE-rebench: Los Resultados de Febrero de 2026 Muestran una Competencia Ajustada

Resultados de SWE-rebench Febrero 2026
El ranking SWE-rebench se ha actualizado con las ejecuciones de febrero de 2026 en 57 nuevas tareas de PR de GitHub. La configuración sigue la metodología estándar de SWE-bench: los modelos leen problemas reales de PR, editan código, ejecutan pruebas y deben hacer pasar toda la suite de pruebas. Las tareas se limitan a PRs creados en el mes anterior.
Resultados Clave
- Claude Opus 4.6 se mantiene en la cima con una tasa de resolución del 65.3%, continuando marcando el ritmo con un fuerte pass@5 (~70%)
- El nivel superior es extremadamente ajustado: gpt-5.2-medium (64.4%), GLM-5 (62.8%) y gpt-5.4-medium (62.8%) están todos a pocos puntos del líder
- Gemini 3.1 Pro Preview (62.3%) y DeepSeek-V3.2 (60.9%) completan un top-6 muy agrupado
- Los modelos de código abierto/híbridos siguen mejorando: Qwen3.5-397B (59.9%), Step-3.5-Flash (59.6%) y Qwen3-Coder-Next (54.4%) están reduciendo la brecha, impulsados por un mejor uso de contexto largo y escalabilidad
- MiniMax M2.5 (54.6%) continúa destacándose como una opción rentable con un rendimiento competitivo
En general, febrero muestra una frontera altamente competitiva con múltiples modelos a pocos puntos del liderazgo.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Claude Code v2.1.117 Lanzamiento: Bifurcación de Subagentes, Mejoras en Complementos y Correcciones de Rendimiento
Claude Code v2.1.117 habilita subagentes bifurcados en compilaciones externas mediante CLAUDE_CODE_FORK_SUBAGENT=1, mejora el manejo de dependencias de complementos y corrige los cálculos de la ventana de contexto de Opus 4.7. La versión incluye un inicio más rápido con conexiones MCP concurrentes y reemplaza las herramientas Glob/Grep con bfs/ugrep integrados en macOS/Linux.

Qwen 35B-A3B como agente siempre activo en Mac M4 de 16 GB: la E/S de disco falla antes que la RAM
Ejecutar Qwen 35B-A3B con llama.cpp en una Mac M4 de 16 GB funciona para inferencia por lotes, pero un bucle agéntico siempre activo junto con Claude Code y Codex CLI provoca contención de SSD que lleva a inestabilidad del sistema y fallos en trabajos cron, a pesar de que la RAM está bien.

Claude-Code v2.1.84 agrega herramienta PowerShell, variables de entorno y múltiples correcciones.
Claude-Code v2.1.84 presenta una herramienta de PowerShell para Windows como vista previa opcional, añade variables de entorno para la configuración del modelo y tiempos de espera de transmisión, e incluye numerosas correcciones de errores y mejoras de rendimiento.

Qwen3.5-122B en Blackwell SM120: Problema de Corrupción de Caché KV fp8 y Hallazgos de Rendimiento
Las pruebas de Qwen3.5-122B en hardware 8x RTX PRO 6000 Blackwell revelaron que la caché KV fp8_e4m3 produce silenciosamente salidas corruptas sin errores, requiriendo en su lugar caché KV bf16. La optimización MTP proporcionó una aceleración de 2.75x en solicitudes únicas, mientras que las restricciones de DeltaNet bloquearon otras optimizaciones.