Qwen3.5-397Bベンチマーク: M5 Maxで12.99 tok/s達成

パフォーマンス結果

ユーザーは、128GB統一メモリを搭載したM5 Max MacBook Proでflash-moe実装をベンチマークし、mlx-community/Qwen3.5-397B-A17B-4bitモデルを実行しました。Dan Woodsによる48GB RAM搭載M3 Maxでの元のベンチマークは1秒あたり4.36トークンを達成しました。M5 Maxでは、4ビット量子化を適用しキャッシュI/O分割なしのベースライン構成で12.48 tok/sに達しました。最適な--cache-io-split 4設定では、パフォーマンスが12.99 tok/sに向上し、元のベンチマークの3倍の速度となりました。

キャッシュI/O分割分析

ユーザーは、M5以降のチップ向けにMetal 4 NAXサポートを追加したAnemllフォークのflash-moeを使用して、cache-io-split値の完全なスイープを実施しました。結果から、分割2と3ではパフォーマンスが低下し、分割4が最適化を提供することが示されています：

cache-io-split 1（なし）：12.48 tok/s、トークンあたり28.4msのエキスパートI/O
cache-io-split 2：9.94 tok/s、トークンあたり28.2msのエキスパートI/O
cache-io-split 3：9.99 tok/s、トークンあたり36.1msのエキスパートI/O
cache-io-split 4：12.99 tok/s、トークンあたり25.9msのエキスパートI/O
cache-io-split 5：12.64 tok/s、トークンあたり27.5msのエキスパートI/O
cache-io-split 8：12.90 tok/s、トークンあたり26.4msのエキスパートI/O

分析によると、分割4はM5 Max SSDコントローラーの内部並列処理と一致し、より高い値ではスケジューリングのオーバーヘッドが追加されます。推奨は--cache-io-split 4を使用するか、分割をまったく行わず、分割2と3を避けることです。

量子化比較

2ビット対4ビット量子化のテストでは、M5 Maxでは2ビットに速度上の利点はなく、SSD速度により小さなファイルは不要であり、逆量子化のオーバーヘッドが利得を相殺することが明らかになりました。品質は2ビットで大幅に低下します：

4ビット：12.99 tok/s、WikiText-2で3.64のパープレキシティ
2ビット：約12.65 tok/s、WikiText-2で5.71のパープレキシティ（57%悪化）

結論として、速度を犠牲にすることなく品質を向上させるために4ビット量子化を使用すべきです。

技術詳細

ベンチマークでは、https://github.com/Anemll/flash-moeで利用可能なAnemllフォークを使用しました。持続性能は1000トークンにわたって11.23 tok/sで安定し、劣化は見られませんでした。ユーザーは、LM StudioなどのMetal/GPUを使用するバックグラウンドプロセスがパフォーマンスに大きな影響を与える可能性があり、ベンチマーク中は閉じるべきであると指摘しました。

📖 Read the full source: r/LocalLLaMA