JANG量子化手法は、大規模モデルのMLXパフォーマンスを向上させます

MLXとGGUF量子化の間の性能ギャップ
この情報源は、大規模言語モデルのための標準的なMLX量子化手法における重大な性能問題について述べています。MMLUベンチマーク(200問)において、MLX用に4ビットに量子化されたMiniMax-M2.5のスコアはわずか26.5%(53/200)でしたが、同じモデルをJANG_2S手法で量子化した場合は74%(148/200)を記録しました。JANG手法は、すべて約25%とほぼランダムな確率に近いスコアだったすべてのMLX量子化レベル(2ビット、3ビット、4ビット)を上回りました。
具体的なベンチマーク結果
詳細なMMLU科目別内訳は、JANG_2Lが一貫してMLX量子化を上回っていることを示しています:
- 抽象代数学: JANG_2L 10/20 vs MLX 4ビット 3/20
- 天文学: JANG_2L 20/20 vs MLX 4ビット 7/20
- 大学レベルのコンピュータサイエンス: JANG_2L 13/20 vs MLX 4ビット 4/20
- 高校生物学: JANG_2L 18/20 vs MLX 4ビット 4/20
MLXの性能が低い根本原因として、「MLXはこのモデルにおいて、直接的な回答の代わりにメタ解説を生成する」ことが特定されました。
モデルサイズと性能比較
Qwen 3.5 122Bモデルについて:
- JANG_4K: 86% MMLUスコア、69 GBサイズ
- MLX 4ビット: 85% MMLUスコア、64 GBサイズ
- JANG_2S: 79% MMLUスコア、38 GBサイズ
- MLX 2ビット: 56.5% MMLUスコア、36 GBサイズ
著者は、「人々はMチップの速度と一貫性をトレードオフしており、MLXにはGGUFに相当するものがない」こと、そして「MacでGGUFを使用する場合のQwen 3.5も、MLXよりも1/3遅い」ことを指摘しています。
MiniMax-M2.5のコード生成問題
参照されたベンチマークから:「MiniMax-M2.5はコードを生成できません — ツール呼び出しで87%、推論で80%の性能にもかかわらず、HumanEval+では10%です。そのコード生成フォーマットに何か問題があります。ただし、推論には優れています。」
入手可能性と実装
現在、以下の方法で利用可能です:
- MLX Studio: https://mlx.studio/ - JANG_Q推論エンジンをネイティブで搭載
- リポジトリ: 自己インストールおよびモデル量子化用
この手法により、「2ビットMLX相当のサイズでMiniMax-M2.5などのモデルを実行しながら、以前はMLXでは不可能だったテスト結果を得る」ことが可能になります。
📖 Read the full source: r/LocalLLaMA
👀 See Also

idea-reality-mcp: MCPサーバーは、Claudeがコードを書く前に既存のツールをチェックします
開発者がidea-reality-mcpというMCPサーバーを構築し、Claudeがコードを書く前にGitHubリポジトリ、Hacker Newsの議論、npmパッケージ、PyPIをスキャンし、市場競争の度合いを示す0〜100の「現実シグナル」スコアを返します。

MCPサーバーがClaudeをCellarTrackerワイン在庫に接続
ある開発者が、ClaudeをCellarTrackerアカウントに直接接続するMCPサーバーを構築しました。これにより、ワインコレクションを問い合わせる際の手動CSVエクスポートが不要になります。

Claude Codeを使って放置していた個人プロジェクトを復活させる方法:実践ガイド
Matthew Brunelle氏が、Claude Code(Opus 4.6使用)を用いて、YouTube MusicからOpenSubsonic APIへのシャムプロジェクトを復活させた方法を、セットアップ手順、プロンプト、ワークフローのヒントとともに紹介しています。

OpenClaw-superpowersは、運用上の障害モードに対する信頼性機能を追加します。
openclaw-superpowersリポジトリが、デプロイ前チェック、cron実行の証明、セッションリセット回復、MCP認証ライフサイクル管理など、信頼性に焦点を当てた8つの新スキルで拡張されました。これにより、合計60スキルとなり、そのうち44がOpenClawネイティブ、23がcronスケジューリング用に設計されています。