4 Modelos Open Source Superan a Claude Opus 4.6 en Benchmarks

Resultados de Benchmarks

Una comparación detallada de modelos de código abierto frente a Claude Opus 4.6 muestra un rendimiento competitivo o superior en múltiples categorías.

Razonamiento General: DeepSeek V3.2

DeepSeek V3.2 se mantiene firme frente a modelos propietarios, con su variante de alto cómputo (V3.2-Speciale) superando a GPT-5.

SWE-bench Verified: Claude Opus 4.6: 80.8%, DeepSeek V3.2: 73.0%
LiveCodeBench: Claude Opus 4.6: 76, DeepSeek V3.2: 74.1
MMLU-Pro: DeepSeek V3.2: 85.0%, Claude Opus 4.6: 82.0%

DeepSeek V3.2 tiene un fuerte soporte multilingüe (CJK, árabe, lenguas europeas), contexto de 128K con atención dispersa, pero se queda corto en escritura creativa y algunos casos límite de salida estructurada. Inferencia: ~60 tok/s de salida, 1.18s TTFT, contexto de 128K. Listo para producción en más del 90% de los casos de uso general. 5 veces más barato que GPT-5, 20 veces más barato que Opus 4.6.

Razonamiento: DeepSeek R1

DeepSeek R1 supera a modelos de razonamiento costosos en varios benchmarks.

Humanity's Last Exam: DeepSeek R1: 50.2%, Claude Opus 4.6: 40.0%
MMLU-Pro: DeepSeek R1: 88.9%, Claude Opus 4.6: 82.0%

Inferencia: ~30 tok/s de salida, ~2s TTFT. Más lento que los modelos no de razonamiento debido al procesamiento de cadena de pensamiento. Mejor modelo de razonamiento de código abierto. Iguala a GPT-5.2 Pro en HLE. 30 veces más barato que o1.

Agéntico: Kimi K2.5

1 billón de parámetros (32B activos por token vía MoE). Contexto de 256K. Código abierto bajo MIT modificado.

Mejora en uso de herramientas: Kimi K2.5: +20.1 pts, Claude Opus 4.6: +12.4 pts, GPT-5.2: +11.0 pts
SWE-bench Verified: Claude Opus 4.6: 80.8%, Kimi K2.5: 76.8%
Humanity's Last Exam: Kimi K2.5: 50.2%, Claude Opus 4.6: 40.0%

Puede generar autónomamente hasta 100 subagentes en paralelo y manejar más de 1,500 llamadas a herramientas sin intervención humana. Inferencia: 334 tok/s de salida, 0.31s TTFT. Mejor modelo para cargas de trabajo de agentes autónomos. TTFT más rápido, mejor uso de herramientas, competitivo en cada benchmark.

Código: MiniMax M2.5

MiniMax M2.5 se convirtió en uno de los mejores modelos de codificación.

SWE-bench Verified: Claude Opus 4.6: 80.8%, MiniMax M2.5: 80.2%, GLM-5: 77.8%

MiniMax lanzó M2.7 el 18 de marzo — un modelo de "auto-evolución" a $0.30/$1.20 por M tokens. Percentil 96 en precisión de codificación, puntaje perfecto en conocimiento general. Uno de los modelos frontera más baratos disponibles. Los modelos de código abierto de codificación igualan efectivamente al mejor modelo propietario.

Comparación de Velocidad

Para producción, la latencia importa tanto como la calidad.

Velocidad de salida (tokens/segundo):

Kimi K2.5 Turbo: 334
Llama 3.1 8B: ~200
GLM 4.7 Flash: ~150
DeepSeek V3.2: ~60
Claude Opus 4.6: 46
DeepSeek R1: ~30

Tiempo al primer token (TTFT):

Llama 3.1 8B: 0.2s
Kimi K2.5 Turbo: 0.31s
GLM 4.7 Flash: 0.51s
DeepSeek V3.2: 1.18s

Kimi K2.5 a 334 tok/s es 7 veces más rápido que Opus a 46 tok/s.

Visión

La visión de código abierto se ha puesto al día para procesamiento de documentos y análisis de imágenes estándar. Llama 4 Scout, Qwen VL y otros manejan bien la extracción de documentos (facturas, recibos, formularios), comprensión de diagramas y razonamiento con múltiples imágenes. Todavía se queda corto en razonamiento espacial de grano fino y escritura a mano no latina.

Comparación General

Mejor modelo de código abierto en cada categoría comparado con Claude Opus 4.6 (Opus = 100% en cada eje):

Código (SWE-bench): Código abierto 80.2% vs Opus 80.8% — Opus gana por 0.6 pts. Básicamente empatados.
Conocimiento (MMLU-Pro): Código abierto 88.9% vs Opus 82.0% — Código abierto gana por 6.9 pts.
Velocidad (tok/s): Código abierto 334 vs Opus 46 — Código abierto es 7.3 veces más rápido.
Uso de Herramientas (mejora): Código abierto +20.1 pts vs Opus +12.4 pts — Código abierto gana por 7.7 pts.

📖 Read the full source: r/LocalLLaMA

Los modelos de código abierto igualan o superan a Claude Opus 4.6 en los benchmarks.

Resultados de Benchmarks

Razonamiento General: DeepSeek V3.2

Razonamiento: DeepSeek R1

Agéntico: Kimi K2.5

Código: MiniMax M2.5

Comparación de Velocidad

Visión

Comparación General

👀 Ver también

Codificación por vibración elude la gobernanza: por qué el juicio, no el software, es el verdadero riesgo

Claude Opus 4.7 añade soporte para imágenes de alta resolución, presupuestos de tareas y elimina el pensamiento extendido.

El volumen de código generado por IA abruma a los ingenieros senior, según un estudio.

Los cambios en el límite de tasa de Slack interrumpen la recuperación de contexto de OpenClaw