Mac Mini M4 16GBで88のGGUFモデルをベンチマーク

Mac Mini M4（16GB統合メモリ）でGGUFモデルを一括ダウンロード、ベンチマーク、アップロード、削除する自動パイプラインが開発されました。このパイプラインは、当該ハードウェア構成に適したローカルLLMを見つけるために88モデルをテストしました。

主な発見

88モデル中9つが16GB RAMでは使用不可 - 重みとKVキャッシュの合計が約14GBを超えるモデルはメモリスラッシングを引き起こし、TTFTが10秒以上またはトークン速度が0.1未満になります。これには全ての密な27B+モデルが含まれます。
スループット対品質のパレートフロンティア上にあるのは4モデルのみ - 全てLFM2-8B-A1Bアーキテクチャ（LiquidAIのMoE、活性化パラメータ1B）です。MoE設計によりトークンあたり約1Bパラメータのみが活性化され、密な8Bモデルが5-7トークン/秒で頭打ちになるのに対し、12-20トークン/秒を達成しています。
1kから4kへのコンテキスト拡張はフラット - 大半のモデルでスループット低下はゼロで、一部のLFM2バリアントでは4kコンテキストで実際に高速化しています。
並行処理スケーリングは低い（並行度2で理想2.0xに対し0.57x） - Mac Miniはメモリ帯域幅が制限されているため、一度に1リクエストを実行することを推奨します。

以下の4モデルは速度と品質の両方で他を上回りました：

品質評価にはコンパクトなサブセット（GSM8K 20問 + MMLU 60問）を使用 - 順位付けには方向性として有用ですが、公表レベルの絶対値ではありません。

最高品質の場合：LFM2-8B-A1B-Q8_0。速度重視の場合：Q5_K_M。バランス重視の場合：UD-Q6_K_XL。

パイプライン全体は自動化されオープンソースです。全88モデルのCSVデータとベンチマークスクリプトはリポジトリで利用可能です。

📖 全文を読む： r/LocalLLaMA