Granite 4.1 : Le modèle dense 8B d'IBM égale le MoE 32B dans les benchmarks

✍️ OpenClawRadar📅 Publié: April 30, 2026🔗 Source
Granite 4.1 : Le modèle dense 8B d'IBM égale le MoE 32B dans les benchmarks
Ad

IBM a publié Granite 4.1, une famille de modèles de langage open source (Apache 2.0) avec des tailles de 3B, 8B et 30B. Tous utilisent un transformeur dense décodeur-only — pas de MoE, pas de longues chaînes de raisonnement. Le modèle 8B se démarque : il correspond ou surpasse le précédent Granite 4.0-H-Small (32B MoE, 9B actifs) sur plusieurs benchmarks.

Principaux résultats des benchmarks

  • ArenaHard (qualité des prompts réels) : 8B obtient 69,0, le 32B MoE obtient un score inférieur.
  • BFCL V3 (appel d'outils) : 8B obtient 68,3, le 32B MoE obtient 64,7.
  • GSM8K (raisonnement mathématique) : 8B atteint 92,5.
  • AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP : le 8B surpasse systématiquement le modèle plus grand.
Ad

Pipeline d'entraînement

Granite 4.1 a été entraîné sur 15 billions de tokens en cinq phases avec des mélanges de données changeants :

  • Phase 1 : 59% CommonCrawl, 20% code, 7% mathématiques.
  • Phase 2 : les mathématiques passent à 35%, le code à 30%.
  • Phases 3-4 : mélange de raisonnement en chaîne de pensée, données d'instructions et contenu web de haute qualité.
  • Phase 5 : extension de la fenêtre de contexte à 512K tokens (8B et 30B).

L'idée clé : la qualité des données prime sur le nombre de paramètres. Le pipeline de filtrage des données d'IBM rejette les exemples hallucinés ou ignorant les instructions pendant le fine-tuning pour éviter d'apprendre sur des signaux erronés.

Pourquoi c'est important pour les agents IA

Les modèles denses offrent une latence et un coût prévisibles — pas de surcharge de routage. Pour les développeurs utilisant des agents de codage IA, le modèle 8B de Granite 4.1 offre de solides capacités d'utilisation d'outils et de raisonnement mathématique pour une fraction du coût de calcul des modèles MoE.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

Les startups déclarent dépenser plus en puissance de calcul IA qu'en salaires humains.
News

Les startups déclarent dépenser plus en puissance de calcul IA qu'en salaires humains.

Les startups d'IA comme Swan AI déclarent des factures mensuelles de calcul IA dépassant les 113 000 $, leurs PDG décrivant cela comme du 'tokenmaxxing' où les dépenses en IA remplacent les budgets traditionnels d'effectifs.

OpenClawRadar
La communauté de ClawbBot discute des améliorations potentielles de l'interface
News

La communauté de ClawbBot discute des améliorations potentielles de l'interface

La communauté ClawbBot explore activement des idées pour améliorer son interface, en se concentrant sur l'amélioration de l'expérience utilisateur et de la fonctionnalité. La discussion suscite des innovations prometteuses dans le domaine des agents de codage IA.

OpenClawRadar
Fiche technique du modèle Claude Opus 4.7 publiée
News

Fiche technique du modèle Claude Opus 4.7 publiée

Anthropic a publié la fiche technique du modèle Claude Opus 4.7, fournissant une documentation technique pour leur dernier modèle d'IA. Le matériel source semble être un document PDF contenant les spécifications système et les détails techniques.

OpenClawRadar
Résultats de référence : Modèles Qwen3.5 sur silicium Apple vs GPU AMD avec ROCm vs Vulkan
News

Résultats de référence : Modèles Qwen3.5 sur silicium Apple vs GPU AMD avec ROCm vs Vulkan

Un développeur a évalué les modèles Qwen3.5 (35B MoE, 27B dense, 122B MoE) sur des Mac à puce Apple Silicon et des stations de travail équipées de GPU AMD, en comparant les backends ROCm et Vulkan avec des tests d'échelle de contexte. Le matériel incluait un M5 Max, un M1 Max et trois GPU AMD avec différentes configurations PCIe.

OpenClawRadar