Apple Silicon LLM推論を200倍高速化：KVキャッシュ再利用の実装方法

概要

ある開発者が、Apple Silicon上でMLXフレームワークを使用したローカルLLM推論のためのセッションベースKV（キー・バリュー）キャッシュ再利用の実験結果を共有しました。目標は、各ターンでコンテキスト全体を再処理する必要をなくすことで、長い会話（10万トークン以上）を実用的にすることでした。

主な発見とベンチマーク

基本的なアプローチは、会話のターン間でKVキャッシュをメモリに保持し、新しいトークンのみを処理することでした。このシンプルなアイデアが劇的な性能向上をもたらしました：

10万コンテキストでの200倍のTTFT改善： キャッシュなし：126秒。キャッシュあり：0.5秒。これは処理されるトークン数の99.9%削減を意味します。
実世界のセッション数値： M3 Ultra 512GB Mac StudioでのQwen3.5-397Bモデルを使用した266メッセージのOpenClawエージェントセッションでのテスト結果：
- キャッシュヒット率：93.8%
- キャッシュヒット時のTTFT（<500新規トークン）：1.0-1.3秒
- 完全なキャッシュミス時のTTFT（124Kトークン）：528秒（8.8分）

うまくいかなかったこと

開発者は、失敗したか性能を低下させたいくつかの最適化の試みをテストしました：

思考トークンのトリミング： モデルの内部推論トークンをキャッシュから削除してスペースを節約しようと試みましたが、病的な動作を引き起こしました。応答は31%長くなり、品質が低下しました。これはモデルがターン間で過去の推論を参照するためです。
KVキャッシュのローテーション（8192トークン）： これは最高のトークン毎秒（TPS）レートを提供しましたが、モデルが以前のコンテキストを失う原因となり、想起能力が大幅に低下しました（8項目中4項目）。
KV 8ビット量子化： これによりTPSが16.5%低下しました。計算オーバーヘッドがメモリ帯域幅の節約を上回ったためです。