M5 Max vs M3 Max: oMLX上Qwen推論ベンチ、最大4倍高速

Redditユーザー/u/onil_govaは、40 GPUコアと128GB統一メモリを搭載した16インチMacBook ProのM5 MaxとM3 Maxプロセッサを比較する推論ベンチマークを実施しました。テストにはoMLX v0.2.23と、122B-A10B MoE、35B-A3B MoE、27B denseの3つのQwen 3.5モデルが使用されました。

ベンチマーク結果

pp1024/tg128（プロンプト処理長1024、トークン生成長128）では、M5 Maxが顕著な速度向上を示しました：

35B-A3B MoE： 134.5 vs 80.3 tg tok/s（1.7倍高速）
122B-A10B MoE： 65.3 vs 46.1 tg tok/s（1.4倍高速）
27B dense： 32.8 vs 23.0 tg tok/s（1.4倍高速）

パフォーマンスの差は、より長いコンテキストで拡大します。65Kコンテキスト長では、27B denseモデルはM3 Maxで6.8 tg tok/s、M5 Maxで19.6 tg tok/sとなり、2.9倍の差が生じました。

プリフィルとバッチ処理のパフォーマンス

プリフィルの優位性はさらに大きく、長いコンテキスト長ではM5 Maxで最大4倍高速となり、これはM5 MaxのGPUニューラルアクセラレーターによるものです。

バッチ処理パフォーマンスは、エージェント型ワークロードにおいて重要な違いを示しました：

M5 Maxは、35B-A3Bモデルでバッチサイズ4倍時に2.54倍のスループットにスケーリング
M3 Maxの密モデルでのバッチ処理はパフォーマンスを低下させました（122Bモデルでバッチ2倍時に0.80倍）

帯域幅の差（M5 Maxで614 GB/s、M3 Maxで400 GB/s）は、マルチステップのエージェントループや並列ツール呼び出しにおいて重要です。

MoE効率に関する洞察

ベンチマークにより、122Bモデル（アクティブパラメータ10B）は両マシンで27B密モデルよりも高速に生成されることが明らかになりました。これは、推論速度を決定するのは総モデルサイズではなく、アクティブパラメータ数であることを示しています。

すべてのチャートとデータを含む完全なインタラクティブな詳細は以下でご覧いただけます： https://claude.ai/public/artifacts/c9fba245-e734-4b3b-be44-a6cabdec6f8f

📖 Read the full source: r/LocalLLaMA

M5 MaxとM3 Maxの推論ベンチマーク比較：oMLX上のQwenモデル

ベンチマーク結果

プリフィルとバッチ処理のパフォーマンス

MoE効率に関する洞察

👀 See Also

Qwen3.6-27Bが単一の24GB GPUに収まり、SWE-benchで以前の397B MoEを上回る性能を達成

Claude AI広範囲に障害発生：ウェブUIダウン、APIエラー増加

調査で70％の開発者がAIコードに脆弱性が多いと回答、それでも30％が本番環境にリリース — Checkmarx

Claude Code v2.1.116：パフォーマンスの改善、ターミナルの修正、セキュリティアップデート