Granite 4.1 8B égale MoE 32B : benchmarks et gains

IBM a publié Granite 4.1, une famille de modèles de langage open source (Apache 2.0) avec des tailles de 3B, 8B et 30B. Tous utilisent un transformeur dense décodeur-only — pas de MoE, pas de longues chaînes de raisonnement. Le modèle 8B se démarque : il correspond ou surpasse le précédent Granite 4.0-H-Small (32B MoE, 9B actifs) sur plusieurs benchmarks.

Principaux résultats des benchmarks

ArenaHard (qualité des prompts réels) : 8B obtient 69,0, le 32B MoE obtient un score inférieur.
BFCL V3 (appel d'outils) : 8B obtient 68,3, le 32B MoE obtient 64,7.
GSM8K (raisonnement mathématique) : 8B atteint 92,5.
AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP : le 8B surpasse systématiquement le modèle plus grand.

Pipeline d'entraînement

Granite 4.1 a été entraîné sur 15 billions de tokens en cinq phases avec des mélanges de données changeants :

Phase 1 : 59% CommonCrawl, 20% code, 7% mathématiques.
Phase 2 : les mathématiques passent à 35%, le code à 30%.
Phases 3-4 : mélange de raisonnement en chaîne de pensée, données d'instructions et contenu web de haute qualité.
Phase 5 : extension de la fenêtre de contexte à 512K tokens (8B et 30B).

L'idée clé : la qualité des données prime sur le nombre de paramètres. Le pipeline de filtrage des données d'IBM rejette les exemples hallucinés ou ignorant les instructions pendant le fine-tuning pour éviter d'apprendre sur des signaux erronés.

Pourquoi c'est important pour les agents IA

Les modèles denses offrent une latence et un coût prévisibles — pas de surcharge de routage. Pour les développeurs utilisant des agents de codage IA, le modèle 8B de Granite 4.1 offre de solides capacités d'utilisation d'outils et de raisonnement mathématique pour une fraction du coût de calcul des modèles MoE.

📖 Lire la source complète : HN AI Agents

Granite 4.1 : Le modèle dense 8B d'IBM égale le MoE 32B dans les benchmarks

Principaux résultats des benchmarks

Pipeline d'entraînement

Pourquoi c'est important pour les agents IA

👀 See Also

Psychiatre à Melbourne refuse de nouveaux patients qui ne consentent pas à la prise de notes par IA

AlphaEvolve : l'agent alimenté par Gemini de DeepMind optimise les algorithmes dans les domaines de la génomique, des réseaux électriques et des circuits TPC

L'utilisateur de Reddit explore pourquoi l'IA ne peut pas encore rechercher les avions disparus comme le MH370 dans les images satellitaires.

Employés d’Amazon utilisant des agents IA MeshClaw pour « tokenmaxxer » et atteindre leurs objectifs d’utilisation