Claude Opus 4.1: 17.75% en SWE-Bench Pro, brecha entre memorización y razonamiento

Los resultados del benchmark muestran una brecha de rendimiento significativa

Claude Opus 4.1 logró más del 80% en SWE-Bench Verified, pero obtuvo solo 17.75% en el conjunto de datos privado de SWE-Bench Pro. Este conjunto de datos contiene 276 tareas de 18 bases de código de startups propietarias que nunca han estado en GitHub, específicamente diseñadas para eliminar la contaminación de datos a través de repositorios públicos con licencia GPL.

Otros resultados de modelos en el mismo conjunto de datos privado: GPT-5.2 obtuvo 23.81% (encabezando la tabla de clasificación) y Gemini 3 Pro obtuvo 17.95%.

El análisis de trayectoria revela comportamiento de memorización

El análisis de Scale AI encontró que durante las pruebas, los modelos podían identificar las rutas de archivo correctas para modificar antes de leer completamente las descripciones de problemas en repositorios familiares. Esto indica que navegaban por memoria en lugar de razonar a través de los problemas.

El puntaje del 80% en SWE-Bench Verified era real, pero medía una capacidad diferente a la que la mayoría de la gente asumía: principalmente memoria de datos de entrenamiento en lugar de razonamiento sobre código novedoso.

Implicaciones prácticas para la implementación de herramientas de codificación con IA

Para los desarrolladores que deciden dónde implementar herramientas de codificación con IA en su flujo de trabajo, la distinción entre memoria y razonamiento importa más que los números destacados de los benchmarks. Los modelos que funcionan bien en benchmarks contaminados pueden tener dificultades con bases de código verdaderamente novedosas que no han visto durante el entrenamiento.

SWE-Bench Pro fue creado específicamente para abordar este problema de contaminación utilizando código que nunca ha estado disponible públicamente en GitHub o en conjuntos de datos de entrenamiento.

📖 Read the full source: r/ClaudeAI

Claude Opus 4.1 obtiene un 17,75 % en el conjunto de datos privado de SWE-Bench Pro, lo que pone de relieve la brecha entre memorización y razonamiento.

Los resultados del benchmark muestran una brecha de rendimiento significativa

El análisis de trayectoria revela comportamiento de memorización

Implicaciones prácticas para la implementación de herramientas de codificación con IA

👀 Ver también

Perros Robot con Inteligencia Artificial Desplegados para Vigilancia en Atlanta

Cuando el Código se Vuelve Barato, la Comprensión se Vuelve Cara

Claude Code v2.1.170: Acceso al modelo Claude Fable 5 y corrección de sesión de VS Code

Delve es acusado de bifurcar el SimStudio de código abierto de Sim.ai y venderlo como Pathways.