Mac Mini M4 16GB：331個GGUFモデルベンチマーク結果 TOP11はMoE

ローカル展開に適したモデルを特定するため、Mac Mini M4（ユニファイドメモリ16GB）で331のGGUFモデルを包括的にベンチマークしました。数週間にわたるテストパイプラインでモデル評価を自動化し、主観的な選択を超えた客観的な比較を実現しました。

主な発見

331モデルのうち31モデルは16GBハードウェアで完全に使用不能でした（初回トークン応答時間（TTFT）＞10秒またはスループット＜0.1トークン/秒の定義）。これらのモデルは技術的には読み込めますが、メモリスラッシングが発生します。テストしたすべての27B以上の密モデルがこのカテゴリーに該当し、最悪のパフォーマーはQwen3.5-27B-heretic-v2-Q4_K_Sで、TTFT97秒、スループット0.007トークン/秒でした。

モデル重みとKVキャッシュの合計が約14GBを超えると、性能が「崖から落ちる」ように急低下します。14B以上の密モデルは、このハードウェアではメモリ帯域幅がボトルネックになります。

アーキテクチャ比較

Mixture-of-Experts（MoE）モデルが16GBハードウェアで優位性を示しました：

中央値トークン/秒：MoE 20.0 vs 密モデル 4.4
中央値TTFT：MoE 0.66秒 vs 密モデル 0.87秒
最大品質スコア：MoE 50.4 vs 密モデル 46.2

1-3Bのアクティブパラメータを持つMoEモデルは、GPUメモリに収まりながら、はるかに大規模な密モデルに匹敵する品質を達成できます。

パレート最適モデル

331モデルのうち、パレートフロンティアに位置する（速度と品質の両方で他のモデルに優れない）モデルはわずか11モデルでした：

Ling-mini-2.0（Q4_K_S, abliterated）：50.3トークン/秒、品質24.2
Ling-mini-2.0（IQ4_NL）：49.8トークン/秒、品質25.8
Ling-mini-2.0（Q3_K_L）：46.3トークン/秒、品質26.2
Ling-mini-2.0（Q3_K_L, abliterated）：46.0トークン/秒、品質28.3
Ling-Coder-lite（IQ4_NL）：24.3トークン/秒、品質29.2
Ling-Coder-lite（Q4_0）：23.6トークン/秒、品質31.3
LFM2-8B-A1B（Q5_K_M）：19.7トークン/秒、品質44.6
LFM2-8B-A1B（Q5_K_XL）：18.9トークン/秒、品質44.6
LFM2-8B-A1B（Q8_0）：15.1トークン/秒、品質46.2
LFM2-8B-A1B（Q8_K_XL）：14.9トークン/秒、品質47.9
LFM2-8B-A1B（Q6_K_XL）：13.9トークン/秒、品質50.4

すべてのパレート最適モデルがMoEアーキテクチャです。331モデル中の他のすべてのモデルは、これら11モデルのいずれかに完全に劣ります。

コンテキストと並行処理性能

コンテキスト長のスケーリングでは驚くほど平坦な性能が観測されました：中央値トークン/秒比率（4096 vs 1024コンテキスト）は1.0倍です。ほとんどのモデルは1kから4kコンテキストへの拡大で性能低下がゼロで、一部のMoEモデルは4kで実際に高速化しました。このハードウェアでは、4kコンテキストでもメモリ帯域幅の崖には達していません。

並行処理は純損失です：並行度2では、リクエストあたりのスループットが0.55倍に低下します（理想は1.0倍）。2つの同時リクエストが同じユニファイドメモリバスを競合します。16GBハードウェアでは、一度に1リクエストを実行することを推奨します。

トップ推奨モデル

LFM2-8B-A1B-UD-Q6_K_XL（unsloth） - 総合最優秀：品質合成スコア50.4（全331モデル中最高）、13.9トークン/秒、TTFT0.48秒。1BアクティブパラメータのMoE - 16GBに建築的に理想的。
LFM2-8B-A1B-Q5_K_M（unsloth） - 高品質モデル中最速：19.7トークン/秒（最速LFM2バリアント）、品質44.6（トップモデルからわずか6ポイント低い）。最小量子化＝長いコンテキスト用のヘッドルーム最大。
LFM2-8B-A1B-UD-Q8_K_XL（unsloth） - バランス性能オプション。

📖 Read the full source: r/LocalLLaMA