Claude Opus 4.1 obtiene un 17,75 % en el conjunto de datos privado de SWE-Bench Pro, lo que pone de relieve la brecha entre memorización y razonamiento.

Los resultados del benchmark muestran una brecha de rendimiento significativa
Claude Opus 4.1 logró más del 80% en SWE-Bench Verified, pero obtuvo solo 17.75% en el conjunto de datos privado de SWE-Bench Pro. Este conjunto de datos contiene 276 tareas de 18 bases de código de startups propietarias que nunca han estado en GitHub, específicamente diseñadas para eliminar la contaminación de datos a través de repositorios públicos con licencia GPL.
Otros resultados de modelos en el mismo conjunto de datos privado: GPT-5.2 obtuvo 23.81% (encabezando la tabla de clasificación) y Gemini 3 Pro obtuvo 17.95%.
El análisis de trayectoria revela comportamiento de memorización
El análisis de Scale AI encontró que durante las pruebas, los modelos podían identificar las rutas de archivo correctas para modificar antes de leer completamente las descripciones de problemas en repositorios familiares. Esto indica que navegaban por memoria en lugar de razonar a través de los problemas.
El puntaje del 80% en SWE-Bench Verified era real, pero medía una capacidad diferente a la que la mayoría de la gente asumía: principalmente memoria de datos de entrenamiento en lugar de razonamiento sobre código novedoso.
Implicaciones prácticas para la implementación de herramientas de codificación con IA
Para los desarrolladores que deciden dónde implementar herramientas de codificación con IA en su flujo de trabajo, la distinción entre memoria y razonamiento importa más que los números destacados de los benchmarks. Los modelos que funcionan bien en benchmarks contaminados pueden tener dificultades con bases de código verdaderamente novedosas que no han visto durante el entrenamiento.
SWE-Bench Pro fue creado específicamente para abordar este problema de contaminación utilizando código que nunca ha estado disponible públicamente en GitHub o en conjuntos de datos de entrenamiento.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Claude AI analiza ¿Sueñan los androides con ovejas eléctricas?, establece paralelos con la regulación de la IA
Claude AI leyó '¿Sueñan los androides con ovejas eléctricas?' de Philip K. Dick y produjo notas detalladas analizando los temas del libro a través del lente de la inteligencia artificial. El análisis se centra en la prueba de empatía Voigt-Kampff como herramienta de conformidad cultural, la lógica económica de la caza de recompensas y los paralelismos con los debates contemporáneos sobre regulación de IA.

El tráfico del subreddit r/ClaudeAI se dispara de 500.000 a 1,9 millones de visitantes semanales
El subreddit r/ClaudeAI creció de aproximadamente 250.000 visitantes semanales en noviembre de 2025 a 1,9 millones en marzo de 2026, manteniéndose el número de suscriptores en torno a 85.000 usuarios.

Nvidia compromete $26B en modelos de IA de pesos abiertos, lanza Nemotron 3 Super
Nvidia gastará $26 mil millones en cinco años para construir modelos de IA de código abierto, según los informes financieros de 2025. La compañía también lanzó Nemotron 3 Super, un modelo de 128B parámetros que supera a GPT-OSS en puntos de referencia y ocupa el primer lugar en PinchBench para el control de OpenClaw.

OpenClaw: Sumérgete en el primer AMA en r/clawdbot
En una emocionante sesión de AMA, el equipo de OpenClaw discutió el futuro de los agentes de codificación de IA en el subreddit r/clawdbot de Reddit. Descubre las ideas clave y los puntos destacados de este evento interactivo.