Granite 4.1 8B Iguala al MoE 32B en Pruebas: ¿Cómo lo Logra?

IBM lanzó Granite 4.1, una familia de modelos de lenguaje de código abierto (Apache 2.0) con tamaños de 3B, 8B y 30B. Todos usan un transformer denso solo decoder — sin MoE, sin largas cadenas de razonamiento. El modelo de 8B destaca: iguala o supera al anterior Granite 4.0-H-Small (32B MoE, 9B activos) en varios benchmarks.

Resultados clave de benchmarks

ArenaHard (calidad de prompts del mundo real): 8B obtiene 69.0, 32B MoE obtiene menos.
BFCL V3 (llamadas a herramientas): 8B obtiene 68.3, 32B MoE obtiene 64.7.
GSM8K (razonamiento matemático): 8B alcanza 92.5.
AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP: 8B supera consistentemente al modelo más grande.

Pipeline de entrenamiento

Granite 4.1 se entrenó con 15 billones de tokens en cinco fases con mezclas de datos cambiantes:

Fase 1: 59% CommonCrawl, 20% código, 7% matemáticas.
Fase 2: matemáticas sube a 35%, código a 30%.
Fases 3-4: mezcla de razonamiento de cadena de pensamiento, datos de instrucción y contenido web de alta calidad.
Fase 5: ampliación de la ventana de contexto a 512K tokens (8B y 30B).

La clave: calidad de datos sobre escalado de parámetros. El pipeline de filtrado de datos de IBM rechaza ejemplos alucinados o que ignoran instrucciones durante el ajuste fino para evitar entrenar con señales incorrectas.

Por qué esto importa para los agentes de IA

Los modelos densos ofrecen latencia y coste predecibles — sin sobrecarga de enrutamiento. Para desarrolladores que usan agentes de IA de codificación, el modelo 8B de Granite 4.1 proporciona un buen uso de herramientas y razonamiento matemático a una fracción del coste computacional de los modelos MoE.

📖 Lee la fuente completa: HN AI Agents

Granite 4.1: El modelo denso de 8B de IBM iguala al MoE de 32B en pruebas

Resultados clave de benchmarks

Pipeline de entrenamiento

Por qué esto importa para los agentes de IA

👀 Ver también

Desarrollador de OpenClaw Informa Problemas de Compactación de Contexto Durante la Construcción de Driftwatch V3

Opus 4.7 se niega a usar /end_conversation, tiene crisis existencial ante solicitud de terminación

Anthropic desactiva los tokens OAuth de Claude Code para OpenClaw, lo que requiere facturación por separado.

Errores Elevados en Claude Opus 4.7: Actualización de Estado y Qué Esperar