oMLX SSD KVキャッシングで応答時間30分→5秒に短縮

oMLXが解決する課題

OpenClawをローカルで実行する場合、通常は同じ巨大なシステムプロンプト（ツール、スキル、ワークスペースコンテキストをカバーする20〜30kトークン）をすべてのリクエストで送信する必要があります。OllamaやLM StudioはKV状態をキャッシュしますが、セッション中にコンテキストがシフトするとキャッシュ全体を無効化し、最初から再計算するため、応答時間が30〜90秒かかってしまいます。

oMLXは、KVキャッシュブロックをsafetensors形式でSSDに永続化することでこの問題を解決します。以前に見たプレフィックスが戻ってきた場合、再計算する代わりにディスクから復元され、リクエスト間やサーバー再起動をまたいで機能します。OpenClawのシステムプロンプトはほとんど静的（タイムスタンプと実行時メタデータのみが変化）であるため、SSDキャッシュにより変更された部分のみが再計算されます。

パフォーマンスベンチマーク

M3 Ultra 512GBでのQwen3.5-122B-A10B-4bitによるテスト結果:

単一リクエストベンチマーク:
- 1kコンテキスト: 768 tok/s プロンプト処理、56.6 tok/s 生成、65.5 GB ピークメモリ
- 8kコンテキスト: 940 tok/s プロンプト処理、51.4 tok/s 生成、69.3 GB ピークメモリ
- 32kコンテキスト: 764 tok/s プロンプト処理、42.4 tok/s 生成、73.4 GB ピークメモリ
連続バッチ処理（pp1024/tg128）:
- 1xバッチ: 56.6 tok/s、1.00x 高速化
- 2xバッチ: 92.1 tok/s、1.63x 高速化
- 4xバッチ: 135.1 tok/s、2.39x 高速化
- 8xバッチ: 190.2 tok/s、3.36x 高速化