MLX推論パフォーマンスアップデート:2026年4月ベンチマークと機能

M2 Ultraでの性能ベンチマーク
このソースは、128GB統一メモリを搭載したMac Studio M2 Ultra上でMLX推論をベンチマークし、コーディングエージェントワークロード向けに大規模モデルをローカルで実行しています。生成速度は4つのモデルで測定され、様々なKVキャッシュ深度(実行ごとに256出力トークン)でのデコードスループット(トークン/秒)が計測されました。
モデル性能データ
- Qwen3.5-27B(密、8ビット): 4Kで20.2トークン/秒、64Kで16.4トークン/秒、128Kで13.1トークン/秒
- Qwen3.5-35B-A3B(MoE、8ビット): 4Kで71.8トークン/秒、64Kで53.5トークン/秒、128Kで41.9トークン/秒
- Nemotron Super 120B(5ビット): 4Kで36.4トークン/秒、64Kで31.2トークン/秒、128Kで28.4トークン/秒
- Qwen3.5-122B-A10B(MoE、5ビット): 4Kで40.6トークン/秒、64Kで29.4トークン/秒、128Kで23.1トークン/秒
35B MoEが高いスループットを達成するのは、35Bパラメータのうちトークンごとに3Bのみが活性化されるためです。Nemotron Super 120Bはコンテキストによる性能低下が最小限(4Kから64Kで14%低下)で、これは88層のうち80層がMamba-2を使用しており、トークンごとのコストが一定であるためです。
機能による高速化
Multi-Token Prediction(MTP): Qwen 3.5モデルには、次のトークンを並列予測するドラフトヘッドが組み込まれています。90%の確率で受容される確率的受容により、122Bは約17トークン/秒から38.8トークン/秒へ(2.3倍の高速化)向上します。サーバーオーバーヘッドは最小限で、vllm-mlx経由の短いプロンプトリクエストは39トークン/秒で生成され、ベースラインと一致します。
SpecPrefill: 長いプロンプトの場合、2Bドラフトモデルがアテンションを介してトークンの重要度をスコアリングし、ターゲットモデルは上位20%のみをプリフィルします。128Kコンテキストでの122Bでは、最初のトークンまでの時間(TTFT)が19.3分から3.5分へ(5.5倍の高速化)短縮されます。この機能は8Kトークンを超えるプロンプトでのみ活性化します。
MLX対llama.cpp比較
Qwen3.5-35B-A3Bを両スタックでベンチマーク(KVキャッシュを埋めた後512トークン生成):
- 32Kコンテキスト: MLX 8ビット: 60.8トークン/秒、llama.cpp FA ON(5ビット): 54.85トークン/秒、llama.cpp FA OFF: 36.45トークン/秒
- 64Kコンテキスト: MLX 8ビット: 53.2トークン/秒、llama.cpp FA ON(5ビット): 45.84トークン/秒、llama.cpp FA OFF: 24.47トークン/秒
- 128Kコンテキスト: MLX 8ビット: 42.7トークン/秒、llama.cpp FA ON(5ビット): 34.48トークン/秒、llama.cpp FA OFF: 13.73トークン/秒
MLXは2パス分割Kデコードカーネル(sdpa_vector_2pass)を使用し、128Kコンテキストで最大1024スレッドグループをディスパッチします。この比較は、MLXが長いコンテキスト長でもllama.cppと競合することを示しています。
ハイブリッドアーキテクチャの影響
テストされたモデルは、より少ないアテンション層を持つハイブリッドアーキテクチャを使用しています:
- Qwen3.5-35B-A3B: 25%アテンション層(40層中10層)、4Kで71.8トークン/秒、64Kで-25%低下
- Nemotron Super 120B: 9%アテンション層(88層中8層)、4Kで36.4トークン/秒、64Kで-14%低下
Qwen 3.5はネットワークの大部分にGatedDeltaNet層(線形再帰)を使用し、標準アテンションは層の25%のみに適用されます。アテンション層が少ないほど、トークンごとにスキャンするKVキャッシュが減り、長いコンテキストでの性能低下が少なくなります。
最近の改善点
MLXエコシステムには急速な開発が進む3つの層があります。MLXコアはスレッド安全性の見直し(スレッドごとのM... [ソーステキスト省略]。連続バッチ処理とプレフィックスキャッシュと組み合わせることで、122Bは以前は非現実的だったコンテキスト長でコーディングエージェントをインタラクティブに提供できるようになりました。
📖 Read the full source: r/LocalLLaMA
👀 See Also

動く機械のダイナミックな世界を探求
AIを活用したコーディングエージェントが業界をどのように変革しているかを、最新の技術コミュニティの議論から発見しましょう。OpenClawRadarの洞察を通じて、この進化するテクノロジーの重要な側面に焦点を当てます。

開発者とClaude AIの経験:思考パートナーから認知的外注へ
ある開発者がClaude AIを8ヶ月間毎日使用した経験を共有し、既存の思考を磨くための使用から、初期思考を完全に外部委託する使用へと移行したことを指摘しています。この投稿では、AIを思考パートナーとして使うアプローチと、AIを第一段階の生成ツールとして使うアプローチという、2つの異なる認知アプローチが説明されています。

AI支援による創作における二重基準:コーディング対ライティング
Redditでの議論は、AI支援コーディング(バイブコーディング)とAI支援ライティングの受け入れられ方の対照性を浮き彫りにしており、同一のワークフローにもかかわらず文化的な認識が異なることを指摘しています。

Claude Opus 4.6のeffort=lowパラメータは、他のプロバイダーの低推論モードとは異なります。
Claude Opus 4.6のeffort=lowパラメータは、OpenAIのreasoning.effort=lowやGeminiのthinking_level=lowとは異なり、推論の深さだけでなく一般的な行動努力を制御します。これにより、エージェントはツール呼び出しを減らし、情報の相互参照が不十分になり、ウェブ調査に関するシステムプロンプトの一部を無視するようになりました。