KVキャッシュアーキテクチャの進化:GPT-2からMambaまで

モデルアーキテクチャ間のKVキャッシュメモリコスト
KVキャッシュアーキテクチャの進化に関する最近の分析は、トランスフォーマーモデル間でのメモリ効率の大幅な改善を示しています。この進展は、推論中に会話コンテキストを維持するために必要なGPUメモリを、さまざまな注意メカニズムがどのように削減してきたかを示しています。
具体的なアーキテクチャ比較
- GPT-2 (2019): 300 KiB/トークン。すべてのヘッドが独自のキーと値を共有せずに維持するマルチヘッド注意を使用。4,000トークンの会話には、モデル重みとは別に、キャッシュだけで約1.2GBのGPUメモリが必要。
- Llama 3 (2024): 128 KiB/トークン。複数のクエリヘッドが同じKVペアを共有するグループ化クエリ注意を実装。多くのヘッドが冗長な表現を学習していたという洞察に基づき、GPT-2のコストの半分以下。
- DeepSeek V3 (2024): 68.6 KiB/トークン。KVペアを低次元の潜在空間に圧縮し、推論時に展開するマルチヘッド潜在注意を使用。これはMoEにより37Bがアクティブな671Bパラメータモデル。V3のアーキテクチャが基づくDeepSeek V2のアブレーション研究では、圧縮表現がいくつかのベンチマークで標準MHAに匹敵またはわずかに上回ることを示した。
- Gemma 3 (2025): GQAに加え、ローカル層が1,024トークンのみに注意を向ける5:1のローカル対グローバル注意層を持つスライディングウィンドウを使用。積極的なフィルタリングによるパープレキシティの損失はほとんどないことを示す。
- Mamba/SSM (2023): KVキャッシュをまったく使用しない。トークンごとに更新される固定サイズの隠れ状態を使用。モデルはすべてを保存して後で注意を向けるのではなく、リアルタイムで何を圧縮するかを決定する。
アーキテクチャのギャップと実用的な意味合い
この分析は、現在のアーキテクチャにおける作業メモリと永続的知識の間のギャップを強調しています。KVキャッシュは数秒から数分間持続し(報告されるキャッシュ寿命はプロバイダーと負荷により5〜10分で異なる)、その後消滅します。一時的なキャッシュと永続的な重みの間には、「私は先週の火曜日にこのユーザーと話した」といった情報のためのネイティブな中期記憶やアーキテクチャ上のスロットがありません。
RAG、ファイルシステム、ベクトルDB、精選されたコンテキストを運ぶシステムプロンプトなどの現在の解決策は、「アーキテクチャ上の空白を埋める橋」と表現されています。つまり、内部に中期記憶を持たないモデルに取り付けられた検索システムです。
圧縮問題はこの制限を例示しています。コンテキストが大きくなりすぎると、モデルは自身の履歴を要約し、キャッシュをクリアして、要約から続行します。これにより、精度の低下(6つのルールを持つ出版方針が「編集ガイドラインに関する何か」になる)や、モデルが失われた内容を知らずに劣化したコンテキストで自信を持って動作することが起こり得ます。
Cursorの学習された圧縮アプローチは、単に圧縮を促すのではなく、RLを通じてモデルが適切に自己要約するように訓練しますが、証拠は1つのコーディングベンチマークに限られています。コードは(テストが合格するか失敗するか)明確な報酬信号を提供しますが、編集ノートの圧縮、戦略的計画、重要な詳細が多くのメッセージで必要とされない会話などのシナリオとは異なります。
📖 Read the full source: r/LocalLLaMA
👀 See Also
Claude Code v2.1.140 エージェントツールマッチングの修正、/goalハングアップ、Windowsイベントループの停滞
v2.1.140 では、Agent ツールの subagent_type マッチングが大文字小文字と区切り文字を区別しないようになり、disableAllHooks での /goal のハングを修正し、実行ファイルが見つからないことによる Windows のイベントループ停止を解決するなど、さまざまな改良が加えられています。

Nvidia、オープンウェイトAIモデルに260億ドルを投資し、Nemotron 3 Superをリリース
Nvidiaは、2025年の財務報告書によると、オープンソースAIモデルの構築に5年間で260億ドルを支出する予定です。同社はまた、ベンチマークでGPT-OSSを上回り、OpenClaw制御のPinchBenchで1位を獲得する1280億パラメータのモデル「Nemotron 3 Super」をリリースしました。

OpenClawの自動更新バグにより、/tmpに孤立したプレフライトディレクトリが蓄積する問題
OpenClawの自動更新メカニズムは、更新が失敗した際に/tmp内に残存するプレフライトコピーを作成し、ディスク容量を圧迫してさらなる更新を妨げる可能性があります。あるユーザーは、38GBのVPS上に合計6.5GBの孤立したディレクトリ9個を発見しました。

NHSイングランドがオープンソースから撤退:SDLC-8ポリシーの撤回を求める公開書簡
74名の署名が集まった公開書簡が、NHSイングランドに対して、すべてのNHSソースコードを非公開にするポリシーSDLC-8を撤回し、NHSサービススタンダードの原則12「新しいソースコードはオープンに」を再確認するよう求めています。