Granite 4.1 8B: IBM高密度モデルが32B MoEに匹敵

IBMは、Granite 4.1をオープンソース言語モデルファミリー（Apache 2.0）としてリリースしました。サイズは3B、8B、30Bの3種類です。すべてデンスなデコーダー専用トランスフォーマーを採用し、MoE（混合エキスパート）や長い推論チェーンは使用していません。8Bモデルが際立っており、複数のベンチマークで以前のGranite 4.0-H-Small（32B MoE、9Bアクティブ）に匹敵するか、それを上回っています。

主要ベンチマーク結果

ArenaHard（実世界のプロンプト品質）：8Bが69.0を記録し、32B MoEはそれを下回る。
BFCL V3（ツール呼び出し）：8Bが68.3、32B MoEが64.7。
GSM8K（算数推論）：8Bが92.5を達成。
AlpacaEval、MMLU-Pro、BBH、EvalPlus、MBPP：8Bが一貫して大規模モデルを上回る。

トレーニングパイプライン

Granite 4.1は、5つのフェーズにわたってデータ構成を変えながら15兆トークンでトレーニングされました。

フェーズ1：59% CommonCrawl、20% コード、7% 数学。
フェーズ2：数学が35%、コードが30%に急増。
フェーズ3～4：連鎖思考推論、指示データ、高品質なウェブコンテンツを混合。
フェーズ5：コンテキストウィンドウを512Kトークン（8Bおよび30B）に拡張。

重要な洞察は、パラメータ規模よりもデータ品質に重点を置くことです。IBMのデータフィルタリングパイプラインは、ファインチューニング中に幻覚や指示を無視する例を排除し、悪いシグナルで学習するのを防ぎます。

AIエージェントにとっての重要性

デンスモデルは、ルーティングオーバーヘッドがなく、レイテンシとコストが予測可能です。AIコーディングエージェントを使用する開発者にとって、Granite 4.1の8Bモデルは、MoEモデルの計算コストの一部で強力なツール使用と数学推論を提供します。

📖 全文はこちら： HN AI Agents

Granite 4.1: IBMの8B高密度モデルがベンチマークで32B MoEに匹敵

主要ベンチマーク結果

トレーニングパイプライン

AIエージェントにとっての重要性

👀 See Also

ローカルLLMとOpenClaw向けMac：プロンプト処理のボトルネックがクラウドのコスト優位性を生む

Qwen3 27B、現実のツール呼び出しでGemma 4 26Bを上回る：ローカルAIビデオパイプライン向け

エージェント収益化手法のテスト完了：80秒で最速結果を達成

WhatsApp自動返信バグ、OpenClaw 2026.4.2でメディア画像を通知なしに破棄