MTPLX: Apple SiliconでMTP高速化、トークン処理2.24倍

MTPLXはApple Silicon向けの推論エンジンで、モデルに内蔵されたMulti-Token Prediction（MTP）ヘッドを投機的ドラフターとして活用します。主な結果：MacBook Pro M5 Max上で、Qwen 3.6 27B 4ビットMLXが温度0.6、top_p 0.95、top_k 20の設定で28 tok/sから63 tok/s（2.24倍高速化）に向上。これらはQwenがコーディングに推奨する正確な設定です。

仕組み

DFlashやDDTree（外部ドラフターモデルが必要で、貪欲法のみ）とは異なり、MTPLXはモデル自身のMTPヘッドを使用します。各MTPヘッドが順次ドラフトを生成し、トークンごとの確率分布を出力します。これにより、温度と残差補正を用いた正確な棄却サンプリングが可能になります。外部ドラフターがないため、追加メモリ使用もありません。

Qwen 3.6 27B（深さ5までのMTPヘッド搭載）では、D2～D5をスイープした結果、最適な深さはD3と判明。より深い深さ（D4/D5）は初期の受容率は良好でしたが、深い位置での検証時間が節約できるトークン数を上回りました。

DFlash / DDTreeとの比較

DFlash MLXは生の速度では優れていますが、貪欲法（温度0）サンプリングのみに制限されており、実用的な使用が大きく制限されます。DDTreeも同様の制限を継承しています。両方とも外部ドラフターが必要です。MTPLXは、MTPヘッドを保持し、完全な温度サンプリング推論をサポートする任意のモデルで動作します。