Claude Opus 4.1 obtiene un 17,75 % en el conjunto de datos privado de SWE-Bench Pro, lo que pone de relieve la brecha entre memorización y razonamiento.

Los resultados del benchmark muestran una brecha de rendimiento significativa
Claude Opus 4.1 logró más del 80% en SWE-Bench Verified, pero obtuvo solo 17.75% en el conjunto de datos privado de SWE-Bench Pro. Este conjunto de datos contiene 276 tareas de 18 bases de código de startups propietarias que nunca han estado en GitHub, específicamente diseñadas para eliminar la contaminación de datos a través de repositorios públicos con licencia GPL.
Otros resultados de modelos en el mismo conjunto de datos privado: GPT-5.2 obtuvo 23.81% (encabezando la tabla de clasificación) y Gemini 3 Pro obtuvo 17.95%.
El análisis de trayectoria revela comportamiento de memorización
El análisis de Scale AI encontró que durante las pruebas, los modelos podían identificar las rutas de archivo correctas para modificar antes de leer completamente las descripciones de problemas en repositorios familiares. Esto indica que navegaban por memoria en lugar de razonar a través de los problemas.
El puntaje del 80% en SWE-Bench Verified era real, pero medía una capacidad diferente a la que la mayoría de la gente asumía: principalmente memoria de datos de entrenamiento en lugar de razonamiento sobre código novedoso.
Implicaciones prácticas para la implementación de herramientas de codificación con IA
Para los desarrolladores que deciden dónde implementar herramientas de codificación con IA en su flujo de trabajo, la distinción entre memoria y razonamiento importa más que los números destacados de los benchmarks. Los modelos que funcionan bien en benchmarks contaminados pueden tener dificultades con bases de código verdaderamente novedosas que no han visto durante el entrenamiento.
SWE-Bench Pro fue creado específicamente para abordar este problema de contaminación utilizando código que nunca ha estado disponible públicamente en GitHub o en conjuntos de datos de entrenamiento.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Perros Robot con Inteligencia Artificial Desplegados para Vigilancia en Atlanta
Perros robot de cuatro patas equipados con cámaras e IA están patrullando las calles, apartamentos y sitios de construcción de Atlanta, transmitiendo video de 360° a operadores remotos las 24 horas del día, los 7 días de la semana, como una alternativa más económica a los guardias humanos.

Cuando el Código se Vuelve Barato, la Comprensión se Vuelve Cara
Markus Poppastring establece paralelismos entre la ola de subcontratación de los 2000 y la generación de código mediante IA actual: el costo pasa de escribir código a entenderlo, y con la IA, la intención puede no existir en ningún lado.

Claude Code v2.1.170: Acceso al modelo Claude Fable 5 y corrección de sesión de VS Code
Claude Code v2.1.170 añade Claude Fable 5, un modelo de clase Mythos con capacidades sin precedentes, y corrige el guardado de transcripciones de sesión en la terminal integrada de VS Code.

Delve es acusado de bifurcar el SimStudio de código abierto de Sim.ai y venderlo como Pathways.
La startup de cumplimiento Delve supuestamente bifurcó la herramienta de código abierto para crear agentes SimStudio de Sim.ai, la rebautizó como Pathways y la vendió sin la atribución de licencia adecuada o un acuerdo monetario con Sim.ai, lo que potencialmente viola los términos de la licencia Apache.