MLX量子化Claude 4.6 OpusがApple Silicon向けに14GBに

開発者が、Claude 4.6 Opusの推論能力をApple Siliconハードウェアに持ち込むローカルAIモデルを量子化することに成功し、パフォーマンスを維持しながらメモリ使用量を大幅に削減しました。

モデルとその起源

この取り組みは、特にClaude 4.6 Opusの推論軌跡から蒸留されたバージョンのQwen 3.5 27Bを中心としています。開発者は、単にコードを自動補完するだけでなく「考える」ことができるモデルを求め、Opusの特徴を「慎重で分析的、他のモデルが見逃す微妙なアーキテクチャの欠陥を捉える」と表現しました。この蒸留版は、その「思考」の枠組みをオープンウェイトアーキテクチャにもたらします。

量子化プロセス

元のモデルはBF16形式で55.6GBあり、開発者は「ほとんどのローカル環境では非現実的」と指摘し、メモリプール全体を消費すると述べました。これに対処するため、Apple Silicon向けにモデルを量子化し、4ビット精度に変換するためにMLXを使用しました。目標は、高精度なOpusの推論能力を維持しながら、技術計画や複雑な論理の日常使用に十分な軽量化を実現することでした。