Los modelos de código abierto de menos de 100 GB no pueden superar a Claude Haiku en pruebas de programación.

✍️ OpenClawRadar📅 Publicado: 26 de febrero de 2026🔗 Source

Un análisis reciente de modelos de lenguaje de peso abierto revela una brecha de rendimiento significativa en comparación con Claude Haiku de Anthropic en puntos de referencia de programación. La comparación se realizó utilizando parámetros de prueba específicos y requisitos de memoria.

Metodología de evaluación

La evaluación comparó modelos en dos puntos de referencia de programación: LiveBench (enero de 2026) y Arena Code/WebDev. Las pruebas se realizaron contra Claude Haiku 4.5 con capacidades de pensamiento habilitadas. Los modelos se graficaron según los requisitos de memoria para implementación local.

Especificaciones técnicas

Cuantización: Q4_K_M
Longitud de contexto: 32K
Caché KV: q8_0
Estimación de VRAM: Calculada usando la calculadora personalizada del autor

Hallazgos clave

Ningún modelo de peso abierto por debajo de 100 GB de memoria se acerca al rendimiento de Claude Haiku en ninguno de los puntos de referencia. El competidor más cercano es Minimax M2.5, que requiere aproximadamente 136 GB de memoria y aproximadamente iguala el rendimiento de Haiku en ambos puntos de referencia.

El análisis destaca la brecha actual entre modelos propietarios y de peso abierto en la categoría por debajo de 100 GB para tareas de programación. El autor expresa frustración con esta limitación y hace un llamado para el desarrollo de modelos más pequeños que al menos puedan igualar las capacidades de Haiku.

📖 Read the full source: r/LocalLLaMA

👀 Ver también

Noticias

Gemma 4 Primeras Señales: Adecuación para el Despliegue por Encima del Hype en Flujos de Trabajo de Agentes Locales

El lanzamiento de Gemma 4 enfatiza el despliegue en todos los niveles de hardware, con posicionamiento oficial para hardware personal y dispositivos de borde/móviles, la cuantificación NVFP4 de NVIDIA muestra una compresión de 4x con una retención del 99.7% de la línea base en GPQA, y los rankings de Arena ubican al modelo denso de 31B alrededor del puesto #27.

14 abr 2026, 21:19 UTC

OpenClawRadar

Noticias

El artículo de ajedrez de Claude Shannon de 1950 predijo el problema central de la IA Generativa: Adivinar vs. Saber

El artículo sobre ajedrez de Shannon en 1950 planteó el desafío central de la IA: tomar decisiones 'razonablemente buenas' bajo incertidumbre, exactamente el problema que enfrenta la IA generativa hoy cuando produce respuestas pulidas pero incorrectas.

29 abr 2026, 22:22 UTC

OpenClawRadar

🦀

Noticias

Claude Code v2.1.210 corrige el aislamiento de worktree, la opción de aceptación de Ultracode y docenas de errores

Los aspectos destacados incluyen la corrección del aislamiento del worktree del subagente, la corrección de la activación de ultracode, un nuevo contador de tiempo transcurrido y la desaprobación de reglas de permisos.

15 jul 2026, 00:15 UTC

OpenClawRadar

Noticias

Configuración de Subagentes en OpenClaw: Consideraciones Clave

Los usuarios que experimentan con OpenClaw enfrentan problemas al configurar subagentes, especialmente al modificar archivos JSON.

12 feb 2026, 23:45 UTC

OpenClawRadar