Actualización del Tablero de Líderes de SWE-rebench: Los Resultados de Febrero de 2026 Muestran una Competencia Ajustada

✍️ OpenClawRadar📅 Publicado: 23 de marzo de 2026🔗 Source

Resultados de SWE-rebench Febrero 2026

El ranking SWE-rebench se ha actualizado con las ejecuciones de febrero de 2026 en 57 nuevas tareas de PR de GitHub. La configuración sigue la metodología estándar de SWE-bench: los modelos leen problemas reales de PR, editan código, ejecutan pruebas y deben hacer pasar toda la suite de pruebas. Las tareas se limitan a PRs creados en el mes anterior.

Resultados Clave

Claude Opus 4.6 se mantiene en la cima con una tasa de resolución del 65.3%, continuando marcando el ritmo con un fuerte pass@5 (~70%)
El nivel superior es extremadamente ajustado: gpt-5.2-medium (64.4%), GLM-5 (62.8%) y gpt-5.4-medium (62.8%) están todos a pocos puntos del líder
Gemini 3.1 Pro Preview (62.3%) y DeepSeek-V3.2 (60.9%) completan un top-6 muy agrupado
Los modelos de código abierto/híbridos siguen mejorando: Qwen3.5-397B (59.9%), Step-3.5-Flash (59.6%) y Qwen3-Coder-Next (54.4%) están reduciendo la brecha, impulsados por un mejor uso de contexto largo y escalabilidad
MiniMax M2.5 (54.6%) continúa destacándose como una opción rentable con un rendimiento competitivo

En general, febrero muestra una frontera altamente competitiva con múltiples modelos a pocos puntos del liderazgo.

📖 Read the full source: r/LocalLLaMA

👀 Ver también

Noticias

Microsoft lanza el modelo multimodal Phi-4-reasoning-vision-15B con información sobre su entrenamiento.

Microsoft Research ha lanzado Phi-4-reasoning-vision-15B, un modelo de razonamiento multimodal de código abierto con 15 mil millones de parámetros disponible a través de Microsoft Foundry, HuggingFace y GitHub. El modelo equilibra el poder de razonamiento con la eficiencia y destaca en razonamiento matemático/científico y comprensión de interfaces de usuario.

7 mar 2026, 19:45 UTC

OpenClawRadar

Noticias

Centro de datos de IA de Georgia drenó 29 millones de galones de agua sin medir

El campus de QTS en Fayetteville utilizó 29 millones de galones a través de dos conexiones de agua no autorizadas durante 15 meses, lo que provocó quejas por baja presión. El condado renunció a las multas y cobró $147,000 de forma retroactiva.

11 may 2026, 16:17 UTC

OpenClawRadar

Noticias

Codificadores de IA caminan con laptops abiertas para mantener agentes en funcionamiento

Los técnicos llevan laptops en modo concha para que agentes de IA como Claude Code y OpenAI Codex no se detengan. Los consejos incluyen usar 'caffeinate' en Mac.

14 may 2026, 08:17 UTC

OpenClawRadar

Noticias

La IA se come el mundo (Primavera 2026) – Un análisis exhaustivo del mercado

Un informe PDF detallado sobre las tendencias de la industria de IA, tamaños de mercado y métricas de adopción para la primavera de 2026, que cubre tecnologías clave, actores y pronósticos.

18 may 2026, 22:15 UTC

OpenClawRadar