Mac StudioローカルLLM構成：GLM 5.1 vs Kimi K2.6、Claude Codeとの比較

r/LocalLLaMAで、ユーザーezyzが、M3 Ultra搭載512GBユニファイドメモリのMac Studioで2026年5月時点のローカルLLM構成を投稿しました。この投稿は厳密なベンチマークではなく、日々の感触をチェックしたものですが、Claude Codeを使ってローカルで大規模モデルを実行している人にとって、実用的な観察結果が満載です。

現在アクティブなモデルとパフォーマンス

GLM 5.1 が最大の勝者です。量子化すると、最大コンテキストで約380GBに収まり、他のタスクの余裕を残します。デコード速度は約17 t/s、プリフィルは約190 t/sです。著者は、Claude Codeでのコーディングにおいて、タスクの複雑さが6/10（10が「ブラウンフィールドのレガシーコードベース＋曖昧な仕様」）まで信頼しています。自己完結型で半ばスコープが定まった問題を一貫して処理し、計画やクリーンアップのために時折API版のClaudeを利用しています。

Kimi K2.6 も同じレベルの性能ですが、明らかに優れているわけでも劣っているわけでもなく、より大きいモデルです。積極的に量子化しても約460GBを使用し、他の実験の余地がほとんどありません。速度は速く、プリフィル約220 t/s、デコード約21 t/sです。メモリを大量に使う実験のためにアンロードする必要があるのが難点です。

Minimax 2.7 はサイズと速度の割に印象的ですが、著者は開発作業において3-4/10と評価しています。中途半端なサイズで、GLMとKimiは実用的なコード生成で優れ、一方小規模モデルは「このウェブ検索を要約して」といったアシスタントタスクで優れています。また、単純なリクエストに対してすぐに推論を放棄します。

Gemma 4 31B は期待外れでした。リリースから1か月経ってもMLXサポートがまだ不安定です。31BのDenseモデルは大規模MoEよりそれほど速くなく、公式チャットテンプレートには複数の未修正のバグがあり、パッチもまだ徐々にしか提供されていません。著者は、MTP/ドラフトサポートが安定したら再訪する予定です。

Qwen 3.6 35B は、スクリーンショットの翻訳などのマルチモーダルタスクのためにQwen 3.5 9Bに置き換えられました。十分に優れており高速で、Claude CodeのHaikuバックグラウンドタスクを処理しても違いを感じさせず、約14GBのメモリを節約できます。