Los modelos de código abierto igualan o superan a Claude Opus 4.6 en los benchmarks.

Resultados de Benchmarks
Una comparación detallada de modelos de código abierto frente a Claude Opus 4.6 muestra un rendimiento competitivo o superior en múltiples categorías.
Razonamiento General: DeepSeek V3.2
DeepSeek V3.2 se mantiene firme frente a modelos propietarios, con su variante de alto cómputo (V3.2-Speciale) superando a GPT-5.
- SWE-bench Verified: Claude Opus 4.6: 80.8%, DeepSeek V3.2: 73.0%
- LiveCodeBench: Claude Opus 4.6: 76, DeepSeek V3.2: 74.1
- MMLU-Pro: DeepSeek V3.2: 85.0%, Claude Opus 4.6: 82.0%
DeepSeek V3.2 tiene un fuerte soporte multilingüe (CJK, árabe, lenguas europeas), contexto de 128K con atención dispersa, pero se queda corto en escritura creativa y algunos casos límite de salida estructurada. Inferencia: ~60 tok/s de salida, 1.18s TTFT, contexto de 128K. Listo para producción en más del 90% de los casos de uso general. 5 veces más barato que GPT-5, 20 veces más barato que Opus 4.6.
Razonamiento: DeepSeek R1
DeepSeek R1 supera a modelos de razonamiento costosos en varios benchmarks.
- Humanity's Last Exam: DeepSeek R1: 50.2%, Claude Opus 4.6: 40.0%
- MMLU-Pro: DeepSeek R1: 88.9%, Claude Opus 4.6: 82.0%
Inferencia: ~30 tok/s de salida, ~2s TTFT. Más lento que los modelos no de razonamiento debido al procesamiento de cadena de pensamiento. Mejor modelo de razonamiento de código abierto. Iguala a GPT-5.2 Pro en HLE. 30 veces más barato que o1.
Agéntico: Kimi K2.5
1 billón de parámetros (32B activos por token vía MoE). Contexto de 256K. Código abierto bajo MIT modificado.
- Mejora en uso de herramientas: Kimi K2.5: +20.1 pts, Claude Opus 4.6: +12.4 pts, GPT-5.2: +11.0 pts
- SWE-bench Verified: Claude Opus 4.6: 80.8%, Kimi K2.5: 76.8%
- Humanity's Last Exam: Kimi K2.5: 50.2%, Claude Opus 4.6: 40.0%
Puede generar autónomamente hasta 100 subagentes en paralelo y manejar más de 1,500 llamadas a herramientas sin intervención humana. Inferencia: 334 tok/s de salida, 0.31s TTFT. Mejor modelo para cargas de trabajo de agentes autónomos. TTFT más rápido, mejor uso de herramientas, competitivo en cada benchmark.
Código: MiniMax M2.5
MiniMax M2.5 se convirtió en uno de los mejores modelos de codificación.
- SWE-bench Verified: Claude Opus 4.6: 80.8%, MiniMax M2.5: 80.2%, GLM-5: 77.8%
MiniMax lanzó M2.7 el 18 de marzo — un modelo de "auto-evolución" a $0.30/$1.20 por M tokens. Percentil 96 en precisión de codificación, puntaje perfecto en conocimiento general. Uno de los modelos frontera más baratos disponibles. Los modelos de código abierto de codificación igualan efectivamente al mejor modelo propietario.
Comparación de Velocidad
Para producción, la latencia importa tanto como la calidad.
Velocidad de salida (tokens/segundo):
- Kimi K2.5 Turbo: 334
- Llama 3.1 8B: ~200
- GLM 4.7 Flash: ~150
- DeepSeek V3.2: ~60
- Claude Opus 4.6: 46
- DeepSeek R1: ~30
Tiempo al primer token (TTFT):
- Llama 3.1 8B: 0.2s
- Kimi K2.5 Turbo: 0.31s
- GLM 4.7 Flash: 0.51s
- DeepSeek V3.2: 1.18s
Kimi K2.5 a 334 tok/s es 7 veces más rápido que Opus a 46 tok/s.
Visión
La visión de código abierto se ha puesto al día para procesamiento de documentos y análisis de imágenes estándar. Llama 4 Scout, Qwen VL y otros manejan bien la extracción de documentos (facturas, recibos, formularios), comprensión de diagramas y razonamiento con múltiples imágenes. Todavía se queda corto en razonamiento espacial de grano fino y escritura a mano no latina.
Comparación General
Mejor modelo de código abierto en cada categoría comparado con Claude Opus 4.6 (Opus = 100% en cada eje):
- Código (SWE-bench): Código abierto 80.2% vs Opus 80.8% — Opus gana por 0.6 pts. Básicamente empatados.
- Conocimiento (MMLU-Pro): Código abierto 88.9% vs Opus 82.0% — Código abierto gana por 6.9 pts.
- Velocidad (tok/s): Código abierto 334 vs Opus 46 — Código abierto es 7.3 veces más rápido.
- Uso de Herramientas (mejora): Código abierto +20.1 pts vs Opus +12.4 pts — Código abierto gana por 7.7 pts.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Anthropic separa las suscripciones de Claude del uso de herramientas de terceros.
Anthropic dejará de cubrir el uso de OpenClaw con suscripciones Claude Pro/Team a partir del 4 de abril, requiriendo facturación por uso aparte para herramientas de terceros. Los usuarios deben habilitar 'uso adicional' en la configuración de su cuenta para seguir usando Claude a través de OpenClaw.

Anthropic lanza 10 agentes de IA financiera para presentaciones, KYC y cierre de fin de mes
Anthropic lanzó 10 agentes de IA listos para usar para servicios financieros y seguros, que cubren la creación de pitchbooks, verificación KYC y cierre de fin de mes, entregados a través de Claude Cowork, Claude Code y Managed Agents.

NVIDIA lanza la CPU Vera para cargas de trabajo de IA agentica
NVIDIA ha lanzado la CPU Vera, un procesador diseñado específicamente para cargas de trabajo de IA agentica y aprendizaje por refuerzo, afirmando un rendimiento 50% más rápido y el doble de eficiencia en comparación con las CPU tradicionales a escala de rack.

Perspectivas del Proyecto Rust sobre la IA: Ideas Prácticas de los Colaboradores
Un documento de resumen recopila perspectivas de colaboradores de Rust sobre el uso de herramientas de IA, destacando que una integración efectiva de IA requiere ingeniería cuidadosa y mostrando casos de uso específicos como navegación de bases de código, asistencia en revisión de código y procesamiento de datos semiestructurados.