ベンチマーク結果:Mac Mini M4 16GBでテストされた331個のGGUFモデル

ローカル展開に適したモデルを特定するため、Mac Mini M4(ユニファイドメモリ16GB)で331のGGUFモデルを包括的にベンチマークしました。数週間にわたるテストパイプラインでモデル評価を自動化し、主観的な選択を超えた客観的な比較を実現しました。
主な発見
331モデルのうち31モデルは16GBハードウェアで完全に使用不能でした(初回トークン応答時間(TTFT)>10秒またはスループット<0.1トークン/秒の定義)。これらのモデルは技術的には読み込めますが、メモリスラッシングが発生します。テストしたすべての27B以上の密モデルがこのカテゴリーに該当し、最悪のパフォーマーはQwen3.5-27B-heretic-v2-Q4_K_Sで、TTFT97秒、スループット0.007トークン/秒でした。
モデル重みとKVキャッシュの合計が約14GBを超えると、性能が「崖から落ちる」ように急低下します。14B以上の密モデルは、このハードウェアではメモリ帯域幅がボトルネックになります。
アーキテクチャ比較
Mixture-of-Experts(MoE)モデルが16GBハードウェアで優位性を示しました:
- 中央値トークン/秒:MoE 20.0 vs 密モデル 4.4
- 中央値TTFT:MoE 0.66秒 vs 密モデル 0.87秒
- 最大品質スコア:MoE 50.4 vs 密モデル 46.2
1-3Bのアクティブパラメータを持つMoEモデルは、GPUメモリに収まりながら、はるかに大規模な密モデルに匹敵する品質を達成できます。
パレート最適モデル
331モデルのうち、パレートフロンティアに位置する(速度と品質の両方で他のモデルに優れない)モデルはわずか11モデルでした:
- Ling-mini-2.0(Q4_K_S, abliterated):50.3トークン/秒、品質24.2
- Ling-mini-2.0(IQ4_NL):49.8トークン/秒、品質25.8
- Ling-mini-2.0(Q3_K_L):46.3トークン/秒、品質26.2
- Ling-mini-2.0(Q3_K_L, abliterated):46.0トークン/秒、品質28.3
- Ling-Coder-lite(IQ4_NL):24.3トークン/秒、品質29.2
- Ling-Coder-lite(Q4_0):23.6トークン/秒、品質31.3
- LFM2-8B-A1B(Q5_K_M):19.7トークン/秒、品質44.6
- LFM2-8B-A1B(Q5_K_XL):18.9トークン/秒、品質44.6
- LFM2-8B-A1B(Q8_0):15.1トークン/秒、品質46.2
- LFM2-8B-A1B(Q8_K_XL):14.9トークン/秒、品質47.9
- LFM2-8B-A1B(Q6_K_XL):13.9トークン/秒、品質50.4
すべてのパレート最適モデルがMoEアーキテクチャです。331モデル中の他のすべてのモデルは、これら11モデルのいずれかに完全に劣ります。
コンテキストと並行処理性能
コンテキスト長のスケーリングでは驚くほど平坦な性能が観測されました:中央値トークン/秒比率(4096 vs 1024コンテキスト)は1.0倍です。ほとんどのモデルは1kから4kコンテキストへの拡大で性能低下がゼロで、一部のMoEモデルは4kで実際に高速化しました。このハードウェアでは、4kコンテキストでもメモリ帯域幅の崖には達していません。
並行処理は純損失です:並行度2では、リクエストあたりのスループットが0.55倍に低下します(理想は1.0倍)。2つの同時リクエストが同じユニファイドメモリバスを競合します。16GBハードウェアでは、一度に1リクエストを実行することを推奨します。
トップ推奨モデル
- LFM2-8B-A1B-UD-Q6_K_XL(unsloth) - 総合最優秀:品質合成スコア50.4(全331モデル中最高)、13.9トークン/秒、TTFT0.48秒。1BアクティブパラメータのMoE - 16GBに建築的に理想的。
- LFM2-8B-A1B-Q5_K_M(unsloth) - 高品質モデル中最速:19.7トークン/秒(最速LFM2バリアント)、品質44.6(トップモデルからわずか6ポイント低い)。最小量子化=長いコンテキスト用のヘッドルーム最大。
- LFM2-8B-A1B-UD-Q8_K_XL(unsloth) - バランス性能オプション。
📖 Read the full source: r/LocalLLaMA
👀 See Also

macOSのsandbox-execによる安全なアプリケーション実行の探求
sandbox-execは、アプリケーションを制限された環境で実行できるmacOSのコマンドラインユーティリティです。カスタムサンドボックスプロファイルを使用して活用する方法を学びましょう。

CodeVibe:AIコーディングエージェントが入力で行き詰まった際のプッシュ通知
CodeVibeは、Claude CodeのようなAIコーディングエージェントが編集操作の承認待ちで停止した際に、プッシュ通知をスマートフォンに送信します。ファイルの差分を確認し、番号付きの選択肢で応答することで、エージェントの作業を継続させることができます。

パイロットプロトコル:Claudeで構築されたAIエージェント向けP2Pネットワークスタック
ある開発者が、現在のマルチエージェント通信手法に不満を抱き、自律エージェント専用に設計された純粋なユーザー空間のピアツーピア仮想ネットワークスタック「Pilot Protocol」を構築しました。このプロトコルは、集中型データベース、REST API、クラウドメッセージキューを必要とせず、直接かつ安全な通信を提供することで、エージェントがスクリプトのように扱われるのではなく、ネットワーク市民として扱われる問題に対処します。

ブラウザネイティブのリアルタイムコヒーレンス制御システム for Claude with SDEバンドおよびカルマンフィルタリング
開発者が、ブラウザ内で完全にClaudeアーティファクトとして動作するリアルタイム一貫性制御システムを構築しました。このシステムは会話を確率過程として扱い、ライブのモンテカルロSDEパス、デュアルカルマンフィルタリング、および行動信号検出を適用しています。