【比較】Qwen3-VL性能：M3 Max vs M4 vs M5 Maxベンチマーク

ベンチマーク設定とハードウェア

視覚LLM分類パイプラインは、技術図面（様々なメガピクセル解像度のPDF）を対象に、LM StudioとMLXバックエンドを使用し、ストリーミングを有効化し、同じ53ファイルのテストデータセットとプロンプトでテストされました。このタスクは、モデルが画像を分析して短い構造化JSONレスポンス（約300-400トークン）を返す分類であり、推論はプリフィルが支配的で、トークン生成は最小限です。

テストされたハードウェア：

M3 Max：40 GPUコア、48 GB RAM、400 GB/sメモリ帯域幅
M4 Max Studio：40 GPUコア、64 GB RAM、546 GB/sメモリ帯域幅
M5 Max：40 GPUコア、64 GB RAM、614 GB/sメモリ帯域幅

テストされたモデル

Qwen3-VL 8B：8Bパラメータ、4-bit MLX量子化、ディスク上約5.8 GB
Qwen3.5 9B：9Bパラメータ（密、ハイブリッドアテンション）、4-bit MLX量子化、ディスク上約6.2 GB
Qwen3-VL 32B：32Bパラメータ、4-bit MLX量子化、ディスク上約18 GB

8Bモデルの結果

Qwen3-VL 8B（4-bit）の画像あたりの合計時間：

4 MP：M3 Max 48GB：16.5秒、M4 Studio 64GB：15.8秒、M5 Max 64GB：9.0秒（M5はM3より83%高速）
5 MP：M3 Max：20.3秒、M4 Studio：19.8秒、M5 Max：11.5秒（77%高速）
6 MP：M3 Max：24.1秒、M4 Studio：24.4秒、M5 Max：14.0秒（72%高速）
7.5 MP：M4 Studio：32.7秒、M5 Max：20.3秒

M3 MaxとM4 Studioは8Bモデルで基本的に同等であり、M4が37%高いメモリ帯域幅を持つにもかかわらず、合計推論時間は3-5%以内です。M5 Maxは両者より約75-83%高速です。

M3とM4が同速度である理由

プリフィル（プロンプト処理）はメモリ帯域幅ではなく、GPU計算コアに比例します。両チップは40 GPUコアを持つため、プリフィル速度は同じです。視覚モデルでは、プリフィルが支配的です：TTFT（最初のトークンまでの時間）は合計推論時間の70-85%を占めます。これは、視覚エンコーダが画像ごとに重い計算作業を行うためです。

M4はトークン生成で帯域幅の優位性を示します：76-80 T/s対M3の60-64 T/s（25%高速）、これは37%の帯域幅差（546対400 GB/s）と一致します。しかし、短い出力（約300-400トークン）を持つ分類タスクでは、生成は合計時間の約15%に過ぎず、25%の生成速度優位性はエンドツーエンドでわずか3-5%の改善にしかなりません。