Granite 4.1 8B Iguala MoE 32B em Benchmarks: Complete Guide

A IBM lançou o Granite 4.1, uma família de modelos de linguagem de código aberto (Apache 2.0) com tamanhos de 3B, 8B e 30B. Todos usam um transformer denso apenas decoder — sem MoE, sem longas cadeias de raciocínio. O modelo de 8B se destaca: ele iguala ou supera o Granite 4.0-H-Small anterior (32B MoE, 9B ativos) em vários benchmarks.

Principais resultados de benchmark

ArenaHard (qualidade de prompts do mundo real): 8B pontua 69,0, MoE de 32B pontua menos.
BFCL V3 (chamada de ferramentas): 8B pontua 68,3, MoE de 32B pontua 64,7.
GSM8K (raciocínio matemático): 8B atinge 92,5.
AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP: 8B supera consistentemente o modelo maior.

Pipeline de treinamento

O Granite 4.1 foi treinado em 15 trilhões de tokens em cinco fases com misturas de dados variáveis:

Fase 1: 59% CommonCrawl, 20% código, 7% matemática.
Fase 2: matemática salta para 35%, código para 30%.
Fases 3-4: combinação de raciocínio em cadeia de pensamento, dados de instrução e conteúdo web de alta qualidade.
Fase 5: extensão da janela de contexto para 512K tokens (8B e 30B).

A percepção principal: qualidade dos dados em vez de escala de parâmetros. O pipeline de filtragem de dados da IBM rejeita exemplos alucinados ou que ignoram instruções durante o ajuste fino para evitar treinar em sinais ruins.

Por que isso é importante para agentes de IA

Modelos densos oferecem latência e custo previsíveis — sem sobrecarga de roteamento. Para desenvolvedores que usam agentes de codificação de IA, o modelo de 8B do Granite 4.1 fornece forte uso de ferramentas e raciocínio matemático a uma fração do custo computacional de modelos MoE.

📖 Leia a fonte completa: HN AI Agents

Granite 4.1: Modelo Denso de 8B da IBM Iguala MoE de 32B em Benchmarks

Principais resultados de benchmark

Pipeline de treinamento

Por que isso é importante para agentes de IA

👀 See Also

A Delve foi acusada de bifurcar o SimStudio de código aberto da Sim.ai e vendê-lo como Pathways.

Relatórios do Desenvolvedor do OpenClaw Apontam Problemas de Compactação de Contexto Durante a Compilação do Driftwatch V3

O Efeito Casa Assombrada: Cinco Modos de Falha em Código Gerado por IA

Telus implementa conversão de sotaque em tempo real em agentes de call center via Tomato.ai