Gemma 4 31B vs Qwen 3.5 397B: FoodTruck Benchで3位獲得

ベンチマーク結果と分析

Gemma 4 31BはFoodTruck Benchベンチマークで3位を獲得し、いくつかのより大規模で確立されたモデルを上回りました。Redditでの議論によると、このモデルはGLM 5、Qwen 3.5 397B、およびすべてのClaude Sonnetバリアントを凌駕しました。

FoodTruck Benchは、複雑な多段階計画タスクにおいて言語モデルをテストするベンチマークです。投稿者は、Gemma 4のパフォーマンスが、ベンチマークを完了できなかった以前のモデルよりも長期的なタスクをより適切に処理することを示唆していると推測しています。具体的には、このモデルはタスクシーケンスの後続ステップを計画する際に、自身のアドバイスを効果的に聞き入れるようです。

この結果は注目に値します。なぜなら、Gemma 4 31Bは、それが上回ったいくつかのモデルよりも大幅に小規模だからです。例えば、Qwen 3.5 397Bは、Gemma 4 31Bよりも約12.8倍多くのパラメータを持っています。このパフォーマンスは、特定の種類の推論タスクにおいては、モデルアーキテクチャとトレーニングアプローチがパラメータ数と同じくらい重要である可能性を示唆しています。

FoodTruck Benchは、拡張された一連のアクションにわたってコンテキストを維持する必要がある実用的な計画シナリオでモデルをテストします。このベンチマークの設計は、現実世界のアプリケーションで多段階タスクを実行する必要があるAIエージェントを扱う開発者にとって特に関連性が高いものです。

📖 Read the full source: r/LocalLLaMA

Gemma 4 31Bは、FoodTruck Benchにおいてより大規模なモデルを凌駕する性能を発揮します。

ベンチマーク結果と分析

👀 See Also

AIデータセンターが地域の気温を最大9.1℃上昇させる可能性、研究で判明

Claude Code v2.1.133: worktree.baseRefの巻き戻し、サンドボックスパス、MCP OAuthのプロキシ修正

OpenClaw クライアントがコスト追跡とエージェントごとの支出制限を追加

Stripeのミニオン：ワンショットエンドツーエンドコーディングエージェントによる開発者生産性の向上