Los modelos de código abierto igualan o superan a Claude Opus 4.6 en los benchmarks.

✍️ OpenClawRadar📅 Publicado: 19 de marzo de 2026🔗 Source
Los modelos de código abierto igualan o superan a Claude Opus 4.6 en los benchmarks.
Ad
Ad

Resultados de Benchmarks

Una comparación detallada de modelos de código abierto frente a Claude Opus 4.6 muestra un rendimiento competitivo o superior en múltiples categorías.

Razonamiento General: DeepSeek V3.2

DeepSeek V3.2 se mantiene firme frente a modelos propietarios, con su variante de alto cómputo (V3.2-Speciale) superando a GPT-5.

  • SWE-bench Verified: Claude Opus 4.6: 80.8%, DeepSeek V3.2: 73.0%
  • LiveCodeBench: Claude Opus 4.6: 76, DeepSeek V3.2: 74.1
  • MMLU-Pro: DeepSeek V3.2: 85.0%, Claude Opus 4.6: 82.0%

DeepSeek V3.2 tiene un fuerte soporte multilingüe (CJK, árabe, lenguas europeas), contexto de 128K con atención dispersa, pero se queda corto en escritura creativa y algunos casos límite de salida estructurada. Inferencia: ~60 tok/s de salida, 1.18s TTFT, contexto de 128K. Listo para producción en más del 90% de los casos de uso general. 5 veces más barato que GPT-5, 20 veces más barato que Opus 4.6.

Razonamiento: DeepSeek R1

DeepSeek R1 supera a modelos de razonamiento costosos en varios benchmarks.

  • Humanity's Last Exam: DeepSeek R1: 50.2%, Claude Opus 4.6: 40.0%
  • MMLU-Pro: DeepSeek R1: 88.9%, Claude Opus 4.6: 82.0%

Inferencia: ~30 tok/s de salida, ~2s TTFT. Más lento que los modelos no de razonamiento debido al procesamiento de cadena de pensamiento. Mejor modelo de razonamiento de código abierto. Iguala a GPT-5.2 Pro en HLE. 30 veces más barato que o1.

Agéntico: Kimi K2.5

1 billón de parámetros (32B activos por token vía MoE). Contexto de 256K. Código abierto bajo MIT modificado.

  • Mejora en uso de herramientas: Kimi K2.5: +20.1 pts, Claude Opus 4.6: +12.4 pts, GPT-5.2: +11.0 pts
  • SWE-bench Verified: Claude Opus 4.6: 80.8%, Kimi K2.5: 76.8%
  • Humanity's Last Exam: Kimi K2.5: 50.2%, Claude Opus 4.6: 40.0%

Puede generar autónomamente hasta 100 subagentes en paralelo y manejar más de 1,500 llamadas a herramientas sin intervención humana. Inferencia: 334 tok/s de salida, 0.31s TTFT. Mejor modelo para cargas de trabajo de agentes autónomos. TTFT más rápido, mejor uso de herramientas, competitivo en cada benchmark.

Código: MiniMax M2.5

MiniMax M2.5 se convirtió en uno de los mejores modelos de codificación.

  • SWE-bench Verified: Claude Opus 4.6: 80.8%, MiniMax M2.5: 80.2%, GLM-5: 77.8%

MiniMax lanzó M2.7 el 18 de marzo — un modelo de "auto-evolución" a $0.30/$1.20 por M tokens. Percentil 96 en precisión de codificación, puntaje perfecto en conocimiento general. Uno de los modelos frontera más baratos disponibles. Los modelos de código abierto de codificación igualan efectivamente al mejor modelo propietario.

Comparación de Velocidad

Para producción, la latencia importa tanto como la calidad.

Velocidad de salida (tokens/segundo):

  • Kimi K2.5 Turbo: 334
  • Llama 3.1 8B: ~200
  • GLM 4.7 Flash: ~150
  • DeepSeek V3.2: ~60
  • Claude Opus 4.6: 46
  • DeepSeek R1: ~30

Tiempo al primer token (TTFT):

  • Llama 3.1 8B: 0.2s
  • Kimi K2.5 Turbo: 0.31s
  • GLM 4.7 Flash: 0.51s
  • DeepSeek V3.2: 1.18s

Kimi K2.5 a 334 tok/s es 7 veces más rápido que Opus a 46 tok/s.

Visión

La visión de código abierto se ha puesto al día para procesamiento de documentos y análisis de imágenes estándar. Llama 4 Scout, Qwen VL y otros manejan bien la extracción de documentos (facturas, recibos, formularios), comprensión de diagramas y razonamiento con múltiples imágenes. Todavía se queda corto en razonamiento espacial de grano fino y escritura a mano no latina.

Comparación General

Mejor modelo de código abierto en cada categoría comparado con Claude Opus 4.6 (Opus = 100% en cada eje):

  • Código (SWE-bench): Código abierto 80.2% vs Opus 80.8% — Opus gana por 0.6 pts. Básicamente empatados.
  • Conocimiento (MMLU-Pro): Código abierto 88.9% vs Opus 82.0% — Código abierto gana por 6.9 pts.
  • Velocidad (tok/s): Código abierto 334 vs Opus 46 — Código abierto es 7.3 veces más rápido.
  • Uso de Herramientas (mejora): Código abierto +20.1 pts vs Opus +12.4 pts — Código abierto gana por 7.7 pts.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Anthropic lanza Claude Code Remote Control para desarrollo móvil.
Noticias

Anthropic lanza Claude Code Remote Control para desarrollo móvil.

Anthropic ha lanzado Remote Control, una función que permite a los usuarios de Claude Code controlar sus sesiones de desarrollo local desde dispositivos móviles. Disponible inicialmente para suscriptores de Claude Max, requiere la versión 2.1.52 y utiliza un código QR para sincronizar sesiones.

OpenClawRadar
Crítica del Límite de Abstracción y del Enfoque de Integración de Servicios del MCP
Noticias

Crítica del Límite de Abstracción y del Enfoque de Integración de Servicios del MCP

Una discusión en Reddit critica al MCP por agrupar el acceso a la API, herramientas eficientes y conocimiento del dominio en una sola capa, argumentando que esto crea interfaces limitadas en comparación con las API subyacentes. La publicación utiliza Lattice como ejemplo, donde su API pública solo cubre flujos de trabajo de administración de recursos humanos a pesar de tener una API GraphQL completa.

OpenClawRadar
Kimi K2.6 supera a Claude, GPT-5.5 y Gemini en desafío de codificación con estrategia de deslizamiento agresivo
Noticias

Kimi K2.6 supera a Claude, GPT-5.5 y Gemini en desafío de codificación con estrategia de deslizamiento agresivo

En el Day 12 Word Gem Puzzle del AI Coding Contest, el Kimi K2.6 de pesos abiertos de Moonshot AI obtuvo 22 puntos de partido (7-1-0), superando a GPT-5.5 (16), Claude Opus 4.7 (12) y Gemini Pro 3.1 (9). MiMo V2-Pro quedó segundo. Kimi ganó deslizando agresivamente.

OpenClawRadar
Apple utiliza el acceso a Google Gemini para la destilación de modelos de IA en el dispositivo
Noticias

Apple utiliza el acceso a Google Gemini para la destilación de modelos de IA en el dispositivo

Apple tiene acceso completo al modelo Gemini de Google para destilación, creando modelos de IA más pequeños en el dispositivo para Siri y otras funciones en iOS 27 sin necesidad de conectividad a internet.

OpenClawRadar