Apple Silicon ベンチマーク:M3、M4、M5 MaxにおけるQwen3-VLのVision LLM分類性能

ベンチマーク設定とハードウェア
視覚LLM分類パイプラインは、技術図面(様々なメガピクセル解像度のPDF)を対象に、LM StudioとMLXバックエンドを使用し、ストリーミングを有効化し、同じ53ファイルのテストデータセットとプロンプトでテストされました。このタスクは、モデルが画像を分析して短い構造化JSONレスポンス(約300-400トークン)を返す分類であり、推論はプリフィルが支配的で、トークン生成は最小限です。
テストされたハードウェア:
- M3 Max:40 GPUコア、48 GB RAM、400 GB/sメモリ帯域幅
- M4 Max Studio:40 GPUコア、64 GB RAM、546 GB/sメモリ帯域幅
- M5 Max:40 GPUコア、64 GB RAM、614 GB/sメモリ帯域幅
テストされたモデル
- Qwen3-VL 8B:8Bパラメータ、4-bit MLX量子化、ディスク上約5.8 GB
- Qwen3.5 9B:9Bパラメータ(密、ハイブリッドアテンション)、4-bit MLX量子化、ディスク上約6.2 GB
- Qwen3-VL 32B:32Bパラメータ、4-bit MLX量子化、ディスク上約18 GB
8Bモデルの結果
Qwen3-VL 8B(4-bit)の画像あたりの合計時間:
- 4 MP:M3 Max 48GB:16.5秒、M4 Studio 64GB:15.8秒、M5 Max 64GB:9.0秒(M5はM3より83%高速)
- 5 MP:M3 Max:20.3秒、M4 Studio:19.8秒、M5 Max:11.5秒(77%高速)
- 6 MP:M3 Max:24.1秒、M4 Studio:24.4秒、M5 Max:14.0秒(72%高速)
- 7.5 MP:M4 Studio:32.7秒、M5 Max:20.3秒
M3 MaxとM4 Studioは8Bモデルで基本的に同等であり、M4が37%高いメモリ帯域幅を持つにもかかわらず、合計推論時間は3-5%以内です。M5 Maxは両者より約75-83%高速です。
M3とM4が同速度である理由
プリフィル(プロンプト処理)はメモリ帯域幅ではなく、GPU計算コアに比例します。両チップは40 GPUコアを持つため、プリフィル速度は同じです。視覚モデルでは、プリフィルが支配的です:TTFT(最初のトークンまでの時間)は合計推論時間の70-85%を占めます。これは、視覚エンコーダが画像ごとに重い計算作業を行うためです。
M4はトークン生成で帯域幅の優位性を示します:76-80 T/s対M3の60-64 T/s(25%高速)、これは37%の帯域幅差(546対400 GB/s)と一致します。しかし、短い出力(約300-400トークン)を持つ分類タスクでは、生成は合計時間の約15%に過ぎず、25%の生成速度優位性はエンドツーエンドでわずか3-5%の改善にしかなりません。
32Bモデルの結果
Qwen3-VL 32B(4-bit)の画像あたりの合計時間:
- 2 MP:M3 Max 48GB:47.6秒、M4 Studio 64GB:35.3秒、M5 Max 64GB:21.2秒
- 4 MP:M3 Max:63.2秒、M4 Studio:50.0秒、M5 Max:27.4秒
- 5 MP:M3 Max:72.9秒、M4 Studio:59.2秒、M5 Max:30.7秒
- 6 MP:M3 Max:85.3秒、M4 Studio:78.0秒、M5 Max:35.6秒
要約、記述、コード生成などの長い生成タスクでは、M4の帯域幅優位性はこの分類ワークロードよりも重要になります。
📖 Read the full source: r/LocalLLaMA
👀 See Also

AI依存の罠:LLMへの過度な依存が中核スキルを損なう理由
AIチャットボットへの過度の依存が、批判的思考、文章作成、調査、学習能力の衰退につながるという逆張りの主張。

神経科学に着想を得たAIエージェントのメモリ・アーキテクチャ、Claudeの自動夢検証を経て
開発者が考案した、神経科学に着想を得たAIエージェント向けメモリアーキテクチャは、睡眠サイクルによる記憶定着と3つの専門エージェントを特徴としており、Claudeが新たにリリースした、メモリファイルに対して内省パスを実行するAuto-dream機能と密接に連携しています。

Claudeコードのバグがドイツ語のウムラウトをASCII代替文字に置き換える
2025年12月以降、Claude CodeとClaude.aiアプリがドイツ語のウムラウト(ä、ö、ü、ß)をASCII代替文字(ae、oe、ue、ss)にランダムに置き換える不具合が発生しています。このバグは明示的な指示にもかかわらず持続し、Anthropicサポートからの応答がないまま3ヶ月以上修正されていません。

アトラシアン、AI投資の資金調達のため従業員の10%を削減
AtlassianはAI投資を自己資金で賄い、財務体質を強化するため、1,600人(従業員の10%)を削減。ソフトウェア開発部門では900のポジションが影響を受けます。CEOのMike Cannon-Brookes氏は、AIが人を置き換えるのではなく、必要なスキルを変えると述べています。