Apple Siliconにおける長い会話のためのKVキャッシュ再利用により、200倍の高速化を実現

概要
ある開発者が、Apple Silicon上でMLXフレームワークを使用したローカルLLM推論のためのセッションベースKV(キー・バリュー)キャッシュ再利用の実験結果を共有しました。目標は、各ターンでコンテキスト全体を再処理する必要をなくすことで、長い会話(10万トークン以上)を実用的にすることでした。
主な発見とベンチマーク
基本的なアプローチは、会話のターン間でKVキャッシュをメモリに保持し、新しいトークンのみを処理することでした。このシンプルなアイデアが劇的な性能向上をもたらしました:
- 10万コンテキストでの200倍のTTFT改善: キャッシュなし:126秒。キャッシュあり:0.5秒。これは処理されるトークン数の99.9%削減を意味します。
- 実世界のセッション数値: M3 Ultra 512GB Mac StudioでのQwen3.5-397Bモデルを使用した266メッセージのOpenClawエージェントセッションでのテスト結果:
- キャッシュヒット率:93.8%
- キャッシュヒット時のTTFT(<500新規トークン):1.0-1.3秒
- 完全なキャッシュミス時のTTFT(124Kトークン):528秒(8.8分)
うまくいかなかったこと
開発者は、失敗したか性能を低下させたいくつかの最適化の試みをテストしました:
- 思考トークンのトリミング: モデルの内部推論トークンをキャッシュから削除してスペースを節約しようと試みましたが、病的な動作を引き起こしました。応答は31%長くなり、品質が低下しました。これはモデルがターン間で過去の推論を参照するためです。
- KVキャッシュのローテーション(8192トークン): これは最高のトークン毎秒(TPS)レートを提供しましたが、モデルが以前のコンテキストを失う原因となり、想起能力が大幅に低下しました(8項目中4項目)。
- KV 8ビット量子化: これによりTPSが16.5%低下しました。計算オーバーヘッドがメモリ帯域幅の節約を上回ったためです。
実装とハードウェア
この実装は、MITライセンスの下でGitHubで公開されているオープンソースの個人プロジェクト「SoloHeaven」の一部です: https://github.com/joongom/mlx-soloheaven。READMEには完全なベンチマークテーブルが含まれています。
テストは、512GB RAMと4TBストレージを搭載したMac Studio M3 Ultraで実施され、MLX用に変換された以下のモデルが使用されました:
- Qwen3.5-122B-A10B-bf16
- Qwen3.5-397B-A17B-MLX-8bit
📖 Read the full source: r/LocalLLaMA
👀 See Also

Tessera: 複数のClaude Codeセッションを管理するためのオープンソースGUIワークスペース
Tesseraは、Claude Codeのセッションを複数同時に管理できるオープンソースのGUIです。Git worktree分離、カンバンタスク管理、ライブ差分、エージェントアクティビティの確認を備えています。

Qhatu: プラットフォームがGitHubリポジトリをClaudeを使った従量制マイクロSaaSに変える
Qhatuは、GitHubリポジトリを受け取り、生成されたフロントエンドと統合された決済処理を備えた従量課金型マイクロSaaSとしてデプロイするプラットフォームです。このシステムはAnthropic APIを使用してコードを分析し、Dockerfileを生成し、ストアフロントUIを作成します。

自動化されたClaudeコードパイプラインにより、機能ごとのトークン使用量が78kから15kに削減されました
Claude Code向けのオープンソースパイプラインは、既存コードの事前チェック分析を含む12のフェーズを自動化し、機能ごとのトークン使用量を約78kから約15kに削減します。3つのプロファイル(yolo、standard、paranoid)を提供し、信頼度スコアをgrepベースの検証に置き換えます。

ヘッドレスモードでClaudeコードを使用したDIY OpenClaw代替案
ある開発者が、タスク、スケジュール、メモのためのTelegramボットアクセス、Hammerspoon自動化、ローカルMarkdownファイルストレージを備えた、ヘッドレスモードでClaude Codeにプロンプトを送信するPythonサーバーを構築しました。