Granite 4.1: IBMの8B高密度モデルがベンチマークで32B MoEに匹敵

IBMは、Granite 4.1をオープンソース言語モデルファミリー(Apache 2.0)としてリリースしました。サイズは3B、8B、30Bの3種類です。すべてデンスなデコーダー専用トランスフォーマーを採用し、MoE(混合エキスパート)や長い推論チェーンは使用していません。8Bモデルが際立っており、複数のベンチマークで以前のGranite 4.0-H-Small(32B MoE、9Bアクティブ)に匹敵するか、それを上回っています。
主要ベンチマーク結果
- ArenaHard(実世界のプロンプト品質):8Bが69.0を記録し、32B MoEはそれを下回る。
- BFCL V3(ツール呼び出し):8Bが68.3、32B MoEが64.7。
- GSM8K(算数推論):8Bが92.5を達成。
- AlpacaEval、MMLU-Pro、BBH、EvalPlus、MBPP:8Bが一貫して大規模モデルを上回る。
トレーニングパイプライン
Granite 4.1は、5つのフェーズにわたってデータ構成を変えながら15兆トークンでトレーニングされました。
- フェーズ1:59% CommonCrawl、20% コード、7% 数学。
- フェーズ2:数学が35%、コードが30%に急増。
- フェーズ3~4:連鎖思考推論、指示データ、高品質なウェブコンテンツを混合。
- フェーズ5:コンテキストウィンドウを512Kトークン(8Bおよび30B)に拡張。
重要な洞察は、パラメータ規模よりもデータ品質に重点を置くことです。IBMのデータフィルタリングパイプラインは、ファインチューニング中に幻覚や指示を無視する例を排除し、悪いシグナルで学習するのを防ぎます。
AIエージェントにとっての重要性
デンスモデルは、ルーティングオーバーヘッドがなく、レイテンシとコストが予測可能です。AIコーディングエージェントを使用する開発者にとって、Granite 4.1の8Bモデルは、MoEモデルの計算コストの一部で強力なツール使用と数学推論を提供します。
📖 全文はこちら: HN AI Agents
👀 See Also

Claude Opus 4.6とSonnet 4.6が、標準価格で100万トークンのコンテキストを提供開始しました。
Claude Opus 4.6とSonnet 4.6は、標準価格で完全な100万トークンのコンテキストウィンドウを提供し、長文コンテキストの追加料金は不要となりました。さらに、1リクエストあたりのメディア制限が600画像またはPDFページに拡大されました。

ジェミニ 3.1 フラッシュ ライブ:ベンチマークと透かし機能を強化したGoogleの最新音声モデル
GoogleはGemini 3.1 Flash Liveをリリースしました。このオーディオモデルは、ComplexFuncBench Audioで90.8%、Scale AIのAudio MultiChallengeで36.1%のスコアを獲得しています。Gemini Live APIを介してGoogle AI Studioで利用可能で、SynthID透かし技術を含んでいます。

ペンタゴン、アンソロピックにAI倫理規定の撤廃を金曜日までに要求
ポリティコの報道によると、米国防総省はアンソロピックに対し、AI倫理規定を廃棄するよう金曜日までに期限を設けた。この記事はハッカーニュースで15ポイントと3コメントを獲得した。

ボーリウムAIプロテオミクスコンペティション2026 - 13,000ドルの賞金と計算リソース支援
Bohriumは2026年に開催予定のAIプロテオミクスコンペティションを実施し、13,000ドルの賞金総額、インターンシップの機会、および計算リソースのサポートを提供します。このコンペティションはHacker Newsで話題となり、17ポイントと5件のコメントが寄せられました。