KVキャッシュ比較：GPT-2からMambaまで完全解説

モデルアーキテクチャ間のKVキャッシュメモリコスト

KVキャッシュアーキテクチャの進化に関する最近の分析は、トランスフォーマーモデル間でのメモリ効率の大幅な改善を示しています。この進展は、推論中に会話コンテキストを維持するために必要なGPUメモリを、さまざまな注意メカニズムがどのように削減してきたかを示しています。

具体的なアーキテクチャ比較

GPT-2 (2019): 300 KiB/トークン。すべてのヘッドが独自のキーと値を共有せずに維持するマルチヘッド注意を使用。4,000トークンの会話には、モデル重みとは別に、キャッシュだけで約1.2GBのGPUメモリが必要。
Llama 3 (2024): 128 KiB/トークン。複数のクエリヘッドが同じKVペアを共有するグループ化クエリ注意を実装。多くのヘッドが冗長な表現を学習していたという洞察に基づき、GPT-2のコストの半分以下。
DeepSeek V3 (2024): 68.6 KiB/トークン。KVペアを低次元の潜在空間に圧縮し、推論時に展開するマルチヘッド潜在注意を使用。これはMoEにより37Bがアクティブな671Bパラメータモデル。V3のアーキテクチャが基づくDeepSeek V2のアブレーション研究では、圧縮表現がいくつかのベンチマークで標準MHAに匹敵またはわずかに上回ることを示した。
Gemma 3 (2025): GQAに加え、ローカル層が1,024トークンのみに注意を向ける5:1のローカル対グローバル注意層を持つスライディングウィンドウを使用。積極的なフィルタリングによるパープレキシティの損失はほとんどないことを示す。
Mamba/SSM (2023): KVキャッシュをまったく使用しない。トークンごとに更新される固定サイズの隠れ状態を使用。モデルはすべてを保存して後で注意を向けるのではなく、リアルタイムで何を圧縮するかを決定する。

アーキテクチャのギャップと実用的な意味合い

この分析は、現在のアーキテクチャにおける作業メモリと永続的知識の間のギャップを強調しています。KVキャッシュは数秒から数分間持続し（報告されるキャッシュ寿命はプロバイダーと負荷により5〜10分で異なる）、その後消滅します。一時的なキャッシュと永続的な重みの間には、「私は先週の火曜日にこのユーザーと話した」といった情報のためのネイティブな中期記憶やアーキテクチャ上のスロットがありません。

RAG、ファイルシステム、ベクトルDB、精選されたコンテキストを運ぶシステムプロンプトなどの現在の解決策は、「アーキテクチャ上の空白を埋める橋」と表現されています。つまり、内部に中期記憶を持たないモデルに取り付けられた検索システムです。

圧縮問題はこの制限を例示しています。コンテキストが大きくなりすぎると、モデルは自身の履歴を要約し、キャッシュをクリアして、要約から続行します。これにより、精度の低下（6つのルールを持つ出版方針が「編集ガイドラインに関する何か」になる）や、モデルが失われた内容を知らずに劣化したコンテキストで自信を持って動作することが起こり得ます。

Cursorの学習された圧縮アプローチは、単に圧縮を促すのではなく、RLを通じてモデルが適切に自己要約するように訓練しますが、証拠は1つのコーディングベンチマークに限られています。コードは（テストが合格するか失敗するか）明確な報酬信号を提供しますが、編集ノートの圧縮、戦略的計画、重要な詳細が多くのメッセージで必要とされない会話などのシナリオとは異なります。

📖 Read the full source: r/LocalLLaMA

KVキャッシュアーキテクチャの進化：GPT-2からMambaまで

モデルアーキテクチャ間のKVキャッシュメモリコスト

具体的なアーキテクチャ比較

アーキテクチャのギャップと実用的な意味合い

👀 See Also

ミニマックスM2.7と10万以上のOpenClawインスタンスへのスケーリングがエコシステムセッションで議論されました

AnthropicがClaudeのフィードバックにGoogleフォームを活用

オープンクロー実験：信号対雑音比を向上させるために沈黙を選ぶAIエージェント

オラクルは、AIデータセンター拡張の資金調達のために、2万から3万人の人員削減とサーナーの売却を検討しています。