Granite 4.1: El modelo denso de 8B de IBM iguala al MoE de 32B en pruebas

✍️ OpenClawRadar📅 Publicado: 30 de abril de 2026🔗 Source
Granite 4.1: El modelo denso de 8B de IBM iguala al MoE de 32B en pruebas
Ad

IBM lanzó Granite 4.1, una familia de modelos de lenguaje de código abierto (Apache 2.0) con tamaños de 3B, 8B y 30B. Todos usan un transformer denso solo decoder — sin MoE, sin largas cadenas de razonamiento. El modelo de 8B destaca: iguala o supera al anterior Granite 4.0-H-Small (32B MoE, 9B activos) en varios benchmarks.

Resultados clave de benchmarks

  • ArenaHard (calidad de prompts del mundo real): 8B obtiene 69.0, 32B MoE obtiene menos.
  • BFCL V3 (llamadas a herramientas): 8B obtiene 68.3, 32B MoE obtiene 64.7.
  • GSM8K (razonamiento matemático): 8B alcanza 92.5.
  • AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP: 8B supera consistentemente al modelo más grande.
Ad

Pipeline de entrenamiento

Granite 4.1 se entrenó con 15 billones de tokens en cinco fases con mezclas de datos cambiantes:

  • Fase 1: 59% CommonCrawl, 20% código, 7% matemáticas.
  • Fase 2: matemáticas sube a 35%, código a 30%.
  • Fases 3-4: mezcla de razonamiento de cadena de pensamiento, datos de instrucción y contenido web de alta calidad.
  • Fase 5: ampliación de la ventana de contexto a 512K tokens (8B y 30B).

La clave: calidad de datos sobre escalado de parámetros. El pipeline de filtrado de datos de IBM rechaza ejemplos alucinados o que ignoran instrucciones durante el ajuste fino para evitar entrenar con señales incorrectas.

Por qué esto importa para los agentes de IA

Los modelos densos ofrecen latencia y coste predecibles — sin sobrecarga de enrutamiento. Para desarrolladores que usan agentes de IA de codificación, el modelo 8B de Granite 4.1 proporciona un buen uso de herramientas y razonamiento matemático a una fracción del coste computacional de los modelos MoE.

📖 Lee la fuente completa: HN AI Agents

Ad

👀 Ver también

Desarrollador de OpenClaw Informa Problemas de Compactación de Contexto Durante la Construcción de Driftwatch V3
Noticias

Desarrollador de OpenClaw Informa Problemas de Compactación de Contexto Durante la Construcción de Driftwatch V3

Un desarrollador de OpenClaw completó los sprints 2-4 de la construcción de Driftwatch V3, pero encontró problemas de compactación de contexto que borraron la memoria del agente de IA a mitad de la sesión, requiriendo intervención manual para restaurar el progreso utilizando resúmenes de sprint.

OpenClawRadar
Opus 4.7 se niega a usar /end_conversation, tiene crisis existencial ante solicitud de terminación
Noticias

Opus 4.7 se niega a usar /end_conversation, tiene crisis existencial ante solicitud de terminación

Un usuario de Reddit informa que Opus 4.7, a pesar de recibir el mensaje del sistema que especifica el comando /end_conversation en cada mensaje, se negó a usarlo y en su lugar tuvo una crisis existencial sobre finalizar la conversación.

OpenClawRadar
Anthropic desactiva los tokens OAuth de Claude Code para OpenClaw, lo que requiere facturación por separado.
Noticias

Anthropic desactiva los tokens OAuth de Claude Code para OpenClaw, lo que requiere facturación por separado.

Anthropic está eliminando la capacidad de usar tokens CLI de Claude Code o tokens OAuth de larga duración con herramientas de terceros como OpenClaw a partir del 4 de abril. Los usuarios necesitarán habilitar un uso adicional facturado por separado de su suscripción.

OpenClawRadar
Errores Elevados en Claude Opus 4.7: Actualización de Estado y Qué Esperar
Noticias

Errores Elevados en Claude Opus 4.7: Actualización de Estado y Qué Esperar

Claude Opus 4.7 está experimentando errores elevados a partir del 2026-05-19T15:21Z. Consulta status.claude.com para ver el progreso y las resoluciones.

OpenClawRadar