Mac Mini ローカル LLM ベンチマーク: 34 トークン/秒を達成

Redditユーザーが、32GB RAM搭載のMac Miniでローカル大規模言語モデルを実行した具体的なパフォーマンスベンチマークを共有しました。この投稿は、このハードウェア構成における具体的なパフォーマンスデータの不足に対応しています。

技術的セットアップ詳細

ユーザーは以下の構成と結果を報告しました：

ソフトウェアバージョン： OpenClaw 2026.3.8、LM Studio 0.4.6+1
モデル： Unsloth gpt-oss-20b-Q4_K_S.gguf
コンテキストサイズ： 26035
パフォーマンス指標： 初回プロンプト後34トークン/秒、初回トークン応答時間0.7秒

モデル構成

ユーザーは以下のモデル設定を指定しました（すべてデフォルト値）：

GPUオフロード = 18
CPUスレッドプールサイズ = 7
最大同時実行数 = 4
エキスパート数 = 4
フラッシュアテンション = オン

Q4_K_S量子化は、これは200億パラメーターモデルの4ビット量子化バージョンであり、合理的なパフォーマンスを維持しながらメモリ要件を削減します。Mac Miniの32GB RAMは、指定されたコンテキスト長でこのモデルサイズに十分です。34トークン/秒のスループットは、Apple Siliconハードウェア上で同様のローカルLLMセットアップを検討している開発者にとって実用的なベンチマークです。

📖 Read the full source: r/openclaw

Mac MiniでのローカルLLMパフォーマンスベンチマーク：OpenClawとLM Studioを使用

技術的セットアップ詳細

モデル構成

👀 See Also

インストール不要でMCPサーバーをテストするオープンソースブラウザツール

CipherClaw: セキュリティペルソナを用いたClaudeによるコード監査

Sandbox0: AIエージェントのためのオープンソースKubernetesネイティブサンドボックスインフラストラクチャ

pop-pay MCPサーバーは、Claude Codeエージェントに支払いガードレールを追加します。