Los modelos de código abierto de menos de 100 GB no pueden superar a Claude Haiku en pruebas de programación.

Un análisis reciente de modelos de lenguaje de peso abierto revela una brecha de rendimiento significativa en comparación con Claude Haiku de Anthropic en puntos de referencia de programación. La comparación se realizó utilizando parámetros de prueba específicos y requisitos de memoria.
Metodología de evaluación
La evaluación comparó modelos en dos puntos de referencia de programación: LiveBench (enero de 2026) y Arena Code/WebDev. Las pruebas se realizaron contra Claude Haiku 4.5 con capacidades de pensamiento habilitadas. Los modelos se graficaron según los requisitos de memoria para implementación local.
Especificaciones técnicas
- Cuantización: Q4_K_M
- Longitud de contexto: 32K
- Caché KV: q8_0
- Estimación de VRAM: Calculada usando la calculadora personalizada del autor
Hallazgos clave
Ningún modelo de peso abierto por debajo de 100 GB de memoria se acerca al rendimiento de Claude Haiku en ninguno de los puntos de referencia. El competidor más cercano es Minimax M2.5, que requiere aproximadamente 136 GB de memoria y aproximadamente iguala el rendimiento de Haiku en ambos puntos de referencia.
El análisis destaca la brecha actual entre modelos propietarios y de peso abierto en la categoría por debajo de 100 GB para tareas de programación. El autor expresa frustración con esta limitación y hace un llamado para el desarrollo de modelos más pequeños que al menos puedan igualar las capacidades de Haiku.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Dos fallos de IA en una demostración: Claude Code corrige la ortografía en lugar del error de esquema, OpenAI distorsiona el mapeo de campos personalizados
Durante un taller en vivo, Claude Code ignoró un error de validación del esquema JSON para corregir advertencias ortográficas, y OpenAI devolvió basura en el primer intento de mapear campos extraños personalizados de Salesforce.

Anthropic presenta una demanda para evitar que el Pentágono la incluya en la lista negra por restricciones de IA.
Anthropic ha presentado una demanda para impedir que el Pentágono la incluya en la lista negra por restricciones en el uso de IA, según un informe de Reuters compartido en Hacker News.

Qwen3.6-27B cabe en una única GPU de 24GB, supera al anterior modelo MoE de 397B en SWE-bench
Qwen3.6-27B (Apache 2.0, contexto de 262K) funciona en Q4_K_M en ~16.8GB, logrando un SWE-bench Verified de 77.2 — superando a Qwen3.5-397B-A17B MoE (76.2). Usa atención lineal Gated DeltaNet con Thinking Preservation para flujos de trabajo de agentes.

Claude Code 2.1.63 añade comandos de barra integrados, ganchos HTTP y correcciones de fugas de memoria.
Anthropic lanzó Claude Code 2.1.63 con 26 cambios en la CLI, incluyendo nuevos comandos de barra /simplify y /batch, enlaces HTTP que envían JSON POST a URLs, y correcciones para múltiples fugas de memoria en sesiones de larga duración.