MTPLX: Apple Silicon上でネイティブMTPヘッドを使用しトークン処理が2.24倍高速化

MTPLXはApple Silicon向けの推論エンジンで、モデルに内蔵されたMulti-Token Prediction(MTP)ヘッドを投機的ドラフターとして活用します。主な結果:MacBook Pro M5 Max上で、Qwen 3.6 27B 4ビットMLXが温度0.6、top_p 0.95、top_k 20の設定で28 tok/sから63 tok/s(2.24倍高速化)に向上。これらはQwenがコーディングに推奨する正確な設定です。
仕組み
DFlashやDDTree(外部ドラフターモデルが必要で、貪欲法のみ)とは異なり、MTPLXはモデル自身のMTPヘッドを使用します。各MTPヘッドが順次ドラフトを生成し、トークンごとの確率分布を出力します。これにより、温度と残差補正を用いた正確な棄却サンプリングが可能になります。外部ドラフターがないため、追加メモリ使用もありません。
Qwen 3.6 27B(深さ5までのMTPヘッド搭載)では、D2~D5をスイープした結果、最適な深さはD3と判明。より深い深さ(D4/D5)は初期の受容率は良好でしたが、深い位置での検証時間が節約できるトークン数を上回りました。
DFlash / DDTreeとの比較
DFlash MLXは生の速度では優れていますが、貪欲法(温度0)サンプリングのみに制限されており、実用的な使用が大きく制限されます。DDTreeも同様の制限を継承しています。両方とも外部ドラフターが必要です。MTPLXは、MTPヘッドを保持し、完全な温度サンプリング推論をサポートする任意のモデルで動作します。
インストールと使用方法
MTPLXは以下のコマンドを備えた完全なCLIとして提供されます:
mtplx start wizard— ガイド付きセットアップ- 4段階のMTP互換性検出によるモデルダウンロードと検査
- 設定可能な深さ2~7以上
- OpenAI/Anthropic互換APIサーバー、ブラウザチャットUI、ターミナルチャット
- ベンチマークスイート、ヘルス診断、クラッシュセーフなファン制御(アイドル認識による自動復元)
- 562のテストスイート付属
エンジンは、カスタムMetalカーネル、コンパイル済み検証グラフ、イノベーションテープGDNロールバック、およびドラフト専用の再量子化LMヘッドを備えた、パッチ適用済みMLXフォーク上に構築されています。
対象ユーザー
Apple Silicon上でローカルLLMを実行し、コーディングやクリエイティブライティングのために出力品質を犠牲にせずに高スループットで温度サンプリング推論を必要とする開発者向け。
📖 全文ソース: r/LocalLLaMA
👀 See Also

OpenClaw 2026.3.23では、DeepSeekプロバイダーの追加、Qwenの従量課金制、およびChrome MCPの改善が行われました。
OpenClaw v2026.3.23では、DeepSeekプロバイダープラグイン、Qwenの従量課金制料金、Anthropic思考順序対応のOpenRouter自動価格設定、Chrome MCPタブ待機機能、Discord/Slack/MatrixおよびWeb UIの修正が導入されました。

歯櫛:Claude OpusとSonnet APIで構築されたオープンソースのリアルタイム音声ファクトチェッカー
Toothcombは、音声の文字起こしを取得し、主張のファクトチェック、論理的誤謬や操作的な言語の検出をClaude Opus APIを使用して行い、リアルタイムのマイクストリーミングをサポートするオープンソースツールです。

Claudeコードのメモリリーク修正 - Linuxホームラボ向け
開発者が、Claude Codeにglibc mallocにおける深刻なメモリリークがあり、400GBのRAMを消費してProxmoxホームラボをクラッシュさせたことを発見し、LD_PRELOADシムとウォッチドッグによる2段階のガードソリューションを作成しました。

Relay CLIツールは、レート制限時にClaudeセッションのコンテキストを保存します。
Relayは、Claudeのセッションがレート制限によって中断された際のコンテキスト消失を解決するRust CLIツールです。ディスクからClaudeの.jsonlセッショントランスクリプトを読み取り、セッション状態の完全なスナップショットを作成します。