Gemma 4 31Bは、FoodTruck Benchにおいてより大規模なモデルを凌駕する性能を発揮します。

ベンチマーク結果と分析
Gemma 4 31BはFoodTruck Benchベンチマークで3位を獲得し、いくつかのより大規模で確立されたモデルを上回りました。Redditでの議論によると、このモデルはGLM 5、Qwen 3.5 397B、およびすべてのClaude Sonnetバリアントを凌駕しました。
FoodTruck Benchは、複雑な多段階計画タスクにおいて言語モデルをテストするベンチマークです。投稿者は、Gemma 4のパフォーマンスが、ベンチマークを完了できなかった以前のモデルよりも長期的なタスクをより適切に処理することを示唆していると推測しています。具体的には、このモデルはタスクシーケンスの後続ステップを計画する際に、自身のアドバイスを効果的に聞き入れるようです。
この結果は注目に値します。なぜなら、Gemma 4 31Bは、それが上回ったいくつかのモデルよりも大幅に小規模だからです。例えば、Qwen 3.5 397Bは、Gemma 4 31Bよりも約12.8倍多くのパラメータを持っています。このパフォーマンスは、特定の種類の推論タスクにおいては、モデルアーキテクチャとトレーニングアプローチがパラメータ数と同じくらい重要である可能性を示唆しています。
FoodTruck Benchは、拡張された一連のアクションにわたってコンテキストを維持する必要がある実用的な計画シナリオでモデルをテストします。このベンチマークの設計は、現実世界のアプリケーションで多段階タスクを実行する必要があるAIエージェントを扱う開発者にとって特に関連性が高いものです。
📖 Read the full source: r/LocalLLaMA
👀 See Also

AIデータセンターが地域の気温を最大9.1℃上昇させる可能性、研究で判明
ケンブリッジ大学の研究によると、AIデータセンターは稼働開始後、地表温度を平均2°C上昇させ、極端なケースでは9.1°Cの上昇が10キロメートル離れた地域にまで影響を及ぼすことが判明しました。

Claude Code v2.1.133: worktree.baseRefの巻き戻し、サンドボックスパス、MCP OAuthのプロキシ修正
Anthropic、Claude Code CLIのv2.1.133をリリース。新しいworktree.baseRef設定(デフォルトはfresh(origin/defaultからのブランチ))、sandbox.bwrapPathとsandbox.socatPath(カスタムbubblewrap/socatバイナリ用)、MCP OAuthフローのproxy/mTLS修正、およびいくつかのバグ修正を含む。

OpenClaw クライアントがコスト追跡とエージェントごとの支出制限を追加
新リリースでは、エージェントごとの支出上限、円形プログレスバーを備えたライブ使用状況UI、サブエージェント管理、スキルのオン/オフ切り替え、エージェントごとのモデル選択が追加されました。

Stripeのミニオン:ワンショットエンドツーエンドコーディングエージェントによる開発者生産性の向上
Stripe Minionsは、Stripeエコシステム内の複雑なタスクを自動化することで開発者の生産性を向上させるために設計された、ワンショットのエンドツーエンドコーディングエージェントです。