16GB Mac Mini M4での88の小型GGUFモデルのベンチマーク

Mac Mini M4(16GB統合メモリ)でGGUFモデルを一括ダウンロード、ベンチマーク、アップロード、削除する自動パイプラインが開発されました。このパイプラインは、当該ハードウェア構成に適したローカルLLMを見つけるために88モデルをテストしました。
主な発見
- 88モデル中9つが16GB RAMでは使用不可 - 重みとKVキャッシュの合計が約14GBを超えるモデルはメモリスラッシングを引き起こし、TTFTが10秒以上またはトークン速度が0.1未満になります。これには全ての密な27B+モデルが含まれます。
- スループット対品質のパレートフロンティア上にあるのは4モデルのみ - 全てLFM2-8B-A1Bアーキテクチャ(LiquidAIのMoE、活性化パラメータ1B)です。MoE設計によりトークンあたり約1Bパラメータのみが活性化され、密な8Bモデルが5-7トークン/秒で頭打ちになるのに対し、12-20トークン/秒を達成しています。
- 1kから4kへのコンテキスト拡張はフラット - 大半のモデルでスループット低下はゼロで、一部のLFM2バリアントでは4kコンテキストで実際に高速化しています。
- 並行処理スケーリングは低い(並行度2で理想2.0xに対し0.57x) - Mac Miniはメモリ帯域幅が制限されているため、一度に1リクエストを実行することを推奨します。
パレートフロンティアモデル
以下の4モデルは速度と品質の両方で他を上回りました:
- LFM2-8B-A1B-Q5_K_M(unsloth):平均14.24 TPS、品質スコア44.6
- LFM2-8B-A1B-Q8_0(unsloth):平均12.37 TPS、品質スコア46.2
- LFM2-8B-A1B-UD-Q8_K_XL(unsloth):平均12.18 TPS、品質スコア47.9
- LFM2-8B-A1B-Q8_0(LiquidAI):平均12.18 TPS、品質スコア51.2
品質評価にはコンパクトなサブセット(GSM8K 20問 + MMLU 60問)を使用 - 順位付けには方向性として有用ですが、公表レベルの絶対値ではありません。
推奨事項
最高品質の場合:LFM2-8B-A1B-Q8_0。速度重視の場合:Q5_K_M。バランス重視の場合:UD-Q6_K_XL。
技術詳細
- ハードウェア:Mac Mini M4、16GB統合メモリ、macOS 15.x
- ソフトウェア:llama-server(llama.cpp)
- 方法論:スループット数値は複数リクエストのp50
- データ:全てのデータはリポジトリ内の成果物から再現可能
パイプライン全体は自動化されオープンソースです。全88モデルのCSVデータとベンチマークスクリプトはリポジトリで利用可能です。
📖 全文を読む: r/LocalLLaMA
👀 See Also

NemoClawサンドボックス隔離を回避してローカルNemotron 9Bエージェントを実行する
開発者がNemoClawのサンドボックス分離を回避し、単一のRTX 5090でNemotron 9Bとツール呼び出し機能を使用した完全ローカルエージェントを実行する方法を確立しました。このアプローチには、iptablesの設定、カスタムTCPリレー、リアルタイムのツール呼び出し翻訳が含まれています。

LLMのための関係性メモリ:ユーザー関係をモデル化する3層システム
オープンソースのPythonツールで、平坦な事実の保存ではなく、3層のナラティブ構造を用いて、7つの心理的次元にわたるユーザーとAIの関係をモデル化することで、LLMにリレーショナルメモリを追加します。

AGI in md: Claudeシステムプロンプトのための11の認知圧縮レベル
GitHubリポジトリには、Claudeシステムプロンプトにエンコード可能な11段階の認知的圧縮が文書化されており、レベル8では分析から構築へと移行し、Haikuのパフォーマンスを0/3から4/4に向上させました。このプロジェクトには、28のプロンプト、299の生出力、19のドメインにわたる完全な実験ログが含まれています。

オプティオ:チケットからPRまでのAIコーディングエージェントをKubernetesでオーケストレーション
Optioは、Claude CodeやCodexなどのAIコーディングエージェントを使用してチケットをマージ済みのプルリクエストに変換するオープンソースのオーケストレーションシステムです。CIの失敗やレビューフィードバック時にエージェントを自動再開するフィードバックループを備え、分離されたKubernetesポッド内で完全なライフサイクルを処理します。