MLX推論パフォーマンス：2026年4月ベンチマークと新機能

M2 Ultraでの性能ベンチマーク

このソースは、128GB統一メモリを搭載したMac Studio M2 Ultra上でMLX推論をベンチマークし、コーディングエージェントワークロード向けに大規模モデルをローカルで実行しています。生成速度は4つのモデルで測定され、様々なKVキャッシュ深度（実行ごとに256出力トークン）でのデコードスループット（トークン/秒）が計測されました。

モデル性能データ

Qwen3.5-27B（密、8ビット）: 4Kで20.2トークン/秒、64Kで16.4トークン/秒、128Kで13.1トークン/秒
Qwen3.5-35B-A3B（MoE、8ビット）: 4Kで71.8トークン/秒、64Kで53.5トークン/秒、128Kで41.9トークン/秒
Nemotron Super 120B（5ビット）: 4Kで36.4トークン/秒、64Kで31.2トークン/秒、128Kで28.4トークン/秒
Qwen3.5-122B-A10B（MoE、5ビット）: 4Kで40.6トークン/秒、64Kで29.4トークン/秒、128Kで23.1トークン/秒

35B MoEが高いスループットを達成するのは、35Bパラメータのうちトークンごとに3Bのみが活性化されるためです。Nemotron Super 120Bはコンテキストによる性能低下が最小限（4Kから64Kで14%低下）で、これは88層のうち80層がMamba-2を使用しており、トークンごとのコストが一定であるためです。

機能による高速化

Multi-Token Prediction（MTP）: Qwen 3.5モデルには、次のトークンを並列予測するドラフトヘッドが組み込まれています。90%の確率で受容される確率的受容により、122Bは約17トークン/秒から38.8トークン/秒へ（2.3倍の高速化）向上します。サーバーオーバーヘッドは最小限で、vllm-mlx経由の短いプロンプトリクエストは39トークン/秒で生成され、ベースラインと一致します。

SpecPrefill: 長いプロンプトの場合、2Bドラフトモデルがアテンションを介してトークンの重要度をスコアリングし、ターゲットモデルは上位20%のみをプリフィルします。128Kコンテキストでの122Bでは、最初のトークンまでの時間（TTFT）が19.3分から3.5分へ（5.5倍の高速化）短縮されます。この機能は8Kトークンを超えるプロンプトでのみ活性化します。

MLX対llama.cpp比較

Qwen3.5-35B-A3Bを両スタックでベンチマーク（KVキャッシュを埋めた後512トークン生成）:

32Kコンテキスト: MLX 8ビット: 60.8トークン/秒、llama.cpp FA ON（5ビット）: 54.85トークン/秒、llama.cpp FA OFF: 36.45トークン/秒
64Kコンテキスト: MLX 8ビット: 53.2トークン/秒、llama.cpp FA ON（5ビット）: 45.84トークン/秒、llama.cpp FA OFF: 24.47トークン/秒
128Kコンテキスト: MLX 8ビット: 42.7トークン/秒、llama.cpp FA ON（5ビット）: 34.48トークン/秒、llama.cpp FA OFF: 13.73トークン/秒

MLXは2パス分割Kデコードカーネル（sdpa_vector_2pass）を使用し、128Kコンテキストで最大1024スレッドグループをディスパッチします。この比較は、MLXが長いコンテキスト長でもllama.cppと競合することを示しています。

ハイブリッドアーキテクチャの影響

テストされたモデルは、より少ないアテンション層を持つハイブリッドアーキテクチャを使用しています:

Qwen3.5-35B-A3B: 25%アテンション層（40層中10層）、4Kで71.8トークン/秒、64Kで-25%低下
Nemotron Super 120B: 9%アテンション層（88層中8層）、4Kで36.4トークン/秒、64Kで-14%低下

Qwen 3.5はネットワークの大部分にGatedDeltaNet層（線形再帰）を使用し、標準アテンションは層の25%のみに適用されます。アテンション層が少ないほど、トークンごとにスキャンするKVキャッシュが減り、長いコンテキストでの性能低下が少なくなります。

MLX推論パフォーマンスアップデート：2026年4月ベンチマークと機能

M2 Ultraでの性能ベンチマーク

モデル性能データ

機能による高速化

MLX対llama.cpp比較

ハイブリッドアーキテクチャの影響

最近の改善点

👀 See Also

メタ社、従業員のキーストロークデータ流出を受けAI社内トレーニングプログラムを一時停止

AGIへの第一歩：ClawDBotでギャップを埋める

Kimi K2.7-Code：オープンソースのコーディングモデル、トークン効率が向上

マニフェストは、GitHub CopilotをOpenClawルーティングの4番目のAIプロバイダーとして追加します。

M2 Ultraでの性能ベンチマーク

モデル性能データ

機能による高速化

MLX対llama.cpp比較

ハイブリッドアーキテクチャの影響

最近の改善点

👀 See Also

メタ社、従業員のキーストロークデータ流出を受けAI社内トレーニングプログラムを一時停止

AGIへの第一歩：ClawDBotでギャップを埋める

Kimi K2.7-Code： オープンソースのコーディングモデル、トークン効率が向上

マニフェストは、GitHub CopilotをOpenClawルーティングの4番目のAIプロバイダーとして追加します。

Kimi K2.7-Code：オープンソースのコーディングモデル、トークン効率が向上