Claude 4.6 Opusの推論機能が、MLX量子化によりApple Silicon向けに14GBに蒸留されました。

✍️ OpenClawRadar📅 公開日: March 7, 2026🔗 Source
Claude 4.6 Opusの推論機能が、MLX量子化によりApple Silicon向けに14GBに蒸留されました。
Ad

開発者が、Claude 4.6 Opusの推論能力をApple Siliconハードウェアに持ち込むローカルAIモデルを量子化することに成功し、パフォーマンスを維持しながらメモリ使用量を大幅に削減しました。

モデルとその起源

この取り組みは、特にClaude 4.6 Opusの推論軌跡から蒸留されたバージョンのQwen 3.5 27Bを中心としています。開発者は、単にコードを自動補完するだけでなく「考える」ことができるモデルを求め、Opusの特徴を「慎重で分析的、他のモデルが見逃す微妙なアーキテクチャの欠陥を捉える」と表現しました。この蒸留版は、その「思考」の枠組みをオープンウェイトアーキテクチャにもたらします。

量子化プロセス

元のモデルはBF16形式で55.6GBあり、開発者は「ほとんどのローカル環境では非現実的」と指摘し、メモリプール全体を消費すると述べました。これに対処するため、Apple Silicon向けにモデルを量子化し、4ビット精度に変換するためにMLXを使用しました。目標は、高精度なOpusの推論能力を維持しながら、技術計画や複雑な論理の日常使用に十分な軽量化を実現することでした。

結果とパフォーマンス

  • 使用量: 55GBから14GBに削減
  • 速度: M4 Proで約16トークン/秒
  • 推論: 完全な<think>ブロックを維持し、モデルが「自己対話」して論理を検証し、エッジケースをシミュレートし、最終回答を提示する前に自己修正できるようにする

入手可能性と要件

開発者は重みをHugging Faceにアップロードしました。このモデルは、プライベートな高層論理と技術計画を完全にオフラインで実行するために、24GB以上のRAMを搭載したMacが必要です。

📖 完全なソースを読む: r/LocalLLaMA

Ad

👀 See Also

ローカルLLMエージェントとComfyUIの統合による自然言語バッチ画像生成
Tools

ローカルLLMエージェントとComfyUIの統合による自然言語バッチ画像生成

開発者がローカルのOpenClawエージェントをComfyUIに接続し、自然言語によるバッチ画像生成ワークフローを可能にした方法を共有しています。この統合では、英語のリクエストをComfyUIのワークフローJSONにマッピングし、API通信を処理するカスタムエージェントスキルを使用しています。

OpenClawRadar
無料Claudeセッション最適化ツール:トークン推定、プロンプト圧縮、セッション計画機能
Tools

無料Claudeセッション最適化ツール:トークン推定、プロンプト圧縮、セッション計画機能

開発者が、Claudeの使用制限を管理するための無料で登録不要のツールを構築しました。このツールには3つの機能があります:プロンプト消費量を事前に確認できるトークン推定機能、フィラー表現を削除してプロンプトを40〜60%削減するプロンプト圧縮機能、コンテキストの再読み込みを最小限に抑えるためにタスクをグループ化するセッションプランナーです。

OpenClawRadar
ファインマン:オープンソース研究エージェントと論文・コードベース監査ツール
Tools

ファインマン:オープンソース研究エージェントと論文・コードベース監査ツール

Feynmanは、研究質問に答えるために4つのサブエージェントを並列で実行するオープンソースの研究エージェントCLIであり、論文の主張と実際のコードベースを比較する独自の監査ツールを備えています。ワンコマンドインストール、MITライセンスに対応し、エージェントのランタイムにはpiを、論文検索にはalphaxivを使用します。

OpenClawRadar
Claudeファイル履歴:Claudeコードセッションを追跡するVS Code拡張機能
Tools

Claudeファイル履歴:Claudeコードセッションを追跡するVS Code拡張機能

Claude File HistoryというVS Code拡張機能は、ファイルに触れたすべてのClaude Codeセッションを追跡し、過去の会話を見つけたり、何が議論されたかをプレビューしたり、ダブルクリックで会話を再開したりできます。

OpenClawRadar