16GB Mac Mini M4での88の小型GGUFモデルのベンチマーク

✍️ OpenClawRadar📅 公開日: March 2, 2026🔗 Source
16GB Mac Mini M4での88の小型GGUFモデルのベンチマーク
Ad

Mac Mini M4(16GB統合メモリ)でGGUFモデルを一括ダウンロード、ベンチマーク、アップロード、削除する自動パイプラインが開発されました。このパイプラインは、当該ハードウェア構成に適したローカルLLMを見つけるために88モデルをテストしました。

主な発見

  • 88モデル中9つが16GB RAMでは使用不可 - 重みとKVキャッシュの合計が約14GBを超えるモデルはメモリスラッシングを引き起こし、TTFTが10秒以上またはトークン速度が0.1未満になります。これには全ての密な27B+モデルが含まれます。
  • スループット対品質のパレートフロンティア上にあるのは4モデルのみ - 全てLFM2-8B-A1Bアーキテクチャ(LiquidAIのMoE、活性化パラメータ1B)です。MoE設計によりトークンあたり約1Bパラメータのみが活性化され、密な8Bモデルが5-7トークン/秒で頭打ちになるのに対し、12-20トークン/秒を達成しています。
  • 1kから4kへのコンテキスト拡張はフラット - 大半のモデルでスループット低下はゼロで、一部のLFM2バリアントでは4kコンテキストで実際に高速化しています。
  • 並行処理スケーリングは低い(並行度2で理想2.0xに対し0.57x) - Mac Miniはメモリ帯域幅が制限されているため、一度に1リクエストを実行することを推奨します。
Ad

パレートフロンティアモデル

以下の4モデルは速度と品質の両方で他を上回りました:

  • LFM2-8B-A1B-Q5_K_M(unsloth):平均14.24 TPS、品質スコア44.6
  • LFM2-8B-A1B-Q8_0(unsloth):平均12.37 TPS、品質スコア46.2
  • LFM2-8B-A1B-UD-Q8_K_XL(unsloth):平均12.18 TPS、品質スコア47.9
  • LFM2-8B-A1B-Q8_0(LiquidAI):平均12.18 TPS、品質スコア51.2

品質評価にはコンパクトなサブセット(GSM8K 20問 + MMLU 60問)を使用 - 順位付けには方向性として有用ですが、公表レベルの絶対値ではありません。

推奨事項

最高品質の場合:LFM2-8B-A1B-Q8_0。速度重視の場合:Q5_K_M。バランス重視の場合:UD-Q6_K_XL。

技術詳細

  • ハードウェア:Mac Mini M4、16GB統合メモリ、macOS 15.x
  • ソフトウェア:llama-server(llama.cpp)
  • 方法論:スループット数値は複数リクエストのp50
  • データ:全てのデータはリポジトリ内の成果物から再現可能

パイプライン全体は自動化されオープンソースです。全88モデルのCSVデータとベンチマークスクリプトはリポジトリで利用可能です。

📖 全文を読む: r/LocalLLaMA

Ad

👀 See Also

NemoClawサンドボックス隔離を回避してローカルNemotron 9Bエージェントを実行する
Tools

NemoClawサンドボックス隔離を回避してローカルNemotron 9Bエージェントを実行する

開発者がNemoClawのサンドボックス分離を回避し、単一のRTX 5090でNemotron 9Bとツール呼び出し機能を使用した完全ローカルエージェントを実行する方法を確立しました。このアプローチには、iptablesの設定、カスタムTCPリレー、リアルタイムのツール呼び出し翻訳が含まれています。

OpenClawRadar
LLMのための関係性メモリ:ユーザー関係をモデル化する3層システム
Tools

LLMのための関係性メモリ:ユーザー関係をモデル化する3層システム

オープンソースのPythonツールで、平坦な事実の保存ではなく、3層のナラティブ構造を用いて、7つの心理的次元にわたるユーザーとAIの関係をモデル化することで、LLMにリレーショナルメモリを追加します。

OpenClawRadar
AGI in md: Claudeシステムプロンプトのための11の認知圧縮レベル
Tools

AGI in md: Claudeシステムプロンプトのための11の認知圧縮レベル

GitHubリポジトリには、Claudeシステムプロンプトにエンコード可能な11段階の認知的圧縮が文書化されており、レベル8では分析から構築へと移行し、Haikuのパフォーマンスを0/3から4/4に向上させました。このプロジェクトには、28のプロンプト、299の生出力、19のドメインにわたる完全な実験ログが含まれています。

OpenClawRadar
オプティオ:チケットからPRまでのAIコーディングエージェントをKubernetesでオーケストレーション
Tools

オプティオ:チケットからPRまでのAIコーディングエージェントをKubernetesでオーケストレーション

Optioは、Claude CodeやCodexなどのAIコーディングエージェントを使用してチケットをマージ済みのプルリクエストに変換するオープンソースのオーケストレーションシステムです。CIの失敗やレビューフィードバック時にエージェントを自動再開するフィードバックループを備え、分離されたKubernetesポッド内で完全なライフサイクルを処理します。

OpenClawRadar