Flash-MOEベンチマーク on M5 Max: Qwen3.5-397Bで12.99 tok/s

パフォーマンス結果
ユーザーは、128GB統一メモリを搭載したM5 Max MacBook Proでflash-moe実装をベンチマークし、mlx-community/Qwen3.5-397B-A17B-4bitモデルを実行しました。Dan Woodsによる48GB RAM搭載M3 Maxでの元のベンチマークは1秒あたり4.36トークンを達成しました。M5 Maxでは、4ビット量子化を適用しキャッシュI/O分割なしのベースライン構成で12.48 tok/sに達しました。最適な--cache-io-split 4設定では、パフォーマンスが12.99 tok/sに向上し、元のベンチマークの3倍の速度となりました。
キャッシュI/O分割分析
ユーザーは、M5以降のチップ向けにMetal 4 NAXサポートを追加したAnemllフォークのflash-moeを使用して、cache-io-split値の完全なスイープを実施しました。結果から、分割2と3ではパフォーマンスが低下し、分割4が最適化を提供することが示されています:
- cache-io-split 1(なし):12.48 tok/s、トークンあたり28.4msのエキスパートI/O
- cache-io-split 2:9.94 tok/s、トークンあたり28.2msのエキスパートI/O
- cache-io-split 3:9.99 tok/s、トークンあたり36.1msのエキスパートI/O
- cache-io-split 4:12.99 tok/s、トークンあたり25.9msのエキスパートI/O
- cache-io-split 5:12.64 tok/s、トークンあたり27.5msのエキスパートI/O
- cache-io-split 8:12.90 tok/s、トークンあたり26.4msのエキスパートI/O
分析によると、分割4はM5 Max SSDコントローラーの内部並列処理と一致し、より高い値ではスケジューリングのオーバーヘッドが追加されます。推奨は--cache-io-split 4を使用するか、分割をまったく行わず、分割2と3を避けることです。
量子化比較
2ビット対4ビット量子化のテストでは、M5 Maxでは2ビットに速度上の利点はなく、SSD速度により小さなファイルは不要であり、逆量子化のオーバーヘッドが利得を相殺することが明らかになりました。品質は2ビットで大幅に低下します:
- 4ビット:12.99 tok/s、WikiText-2で3.64のパープレキシティ
- 2ビット:約12.65 tok/s、WikiText-2で5.71のパープレキシティ(57%悪化)
結論として、速度を犠牲にすることなく品質を向上させるために4ビット量子化を使用すべきです。
技術詳細
ベンチマークでは、https://github.com/Anemll/flash-moeで利用可能なAnemllフォークを使用しました。持続性能は1000トークンにわたって11.23 tok/sで安定し、劣化は見られませんでした。ユーザーは、LM StudioなどのMetal/GPUを使用するバックグラウンドプロセスがパフォーマンスに大きな影響を与える可能性があり、ベンチマーク中は閉じるべきであると指摘しました。
📖 Read the full source: r/LocalLLaMA
👀 See Also

AIエージェントにおけるリアルタイム検索データのための4つのClawHubスキル
ClawHubの4つのスキルは、AIエージェントに構造化された検索機能を提供します:Google(ウェブ、ニュース、画像、マップ)、Amazon(12のマーケットプレイスにわたる商品検索)、Walmart(配送フィルター付き商品検索)、YouTube(トランスクリプト付き動画検索)。1つのAPIキーでclawhub installコマンドからインストールできます。

FFF - Fast File Finderは、ripgrepに比べて100倍の速度優位性を主張しています。
FFF(Fast File Finder)は、Webベースのファイル検索ツールであり、ripgrepよりも100倍高速であると主張し、正規表現ベースの検索手法の次世代の代替手段として位置付けられています。このツールはJavaScriptを必要とし、最近Hacker Newsで36ポイントと17コメントで議論されました。

ボデガ推論エンジン:Apple Siliconの統一メモリ向けLLM推論最適化
Bodegaは、Apple Siliconの統一メモリアーキテクチャに特化して構築された推論エンジンで、MLX向けの継続的バッチ処理とKVキャッシュ管理を再設計することでスループットの制限に対処しています。開発者は2.5年間かけてMetalレイヤーに近い最適化を行ったと報告しています。

カスタムReddit MCP for Claude Desktop/コードがGitHubで共有されています
開発者が、Claude DesktopとClaude Code向けにカスタム構築したReddit MCPを公開しました。このツールは、Redditでのリサーチを直接ワークフローに統合するためのもので、GitHubでドキュメントが公開されており、無料で利用できます。