KV-Cache-Architektur-Evolution: Von GPT-2 bis Mamba

✍️ OpenClawRadar📅 Veröffentlicht: 29. März 2026🔗 Source
KV-Cache-Architektur-Evolution: Von GPT-2 bis Mamba
Ad

KV-Cache-Speicherkosten verschiedener Modellarchitekturen

Eine aktuelle Analyse der Entwicklung der KV-Cache-Architektur zeigt erhebliche Verbesserungen der Speichereffizienz bei Transformer-Modellen. Der Fortschritt verdeutlicht, wie verschiedene Aufmerksamkeitsmechanismen den für die Aufrechterhaltung des Konversationskontexts während der Inferenz benötigten GPU-Speicher reduziert haben.

Spezifische Architekturvergleiche

  • GPT-2 (2019): 300 KiB/Token. Verwendet Multi-Head-Aufmerksamkeit, bei der jeder Kopf seine eigenen Keys und Values ohne gemeinsame Nutzung verwaltet. Eine 4.000-Token-Konversation benötigt etwa 1,2 GB GPU-Speicher nur für den Cache, zusätzlich zu den Modellgewichten.
  • Llama 3 (2024): 128 KiB/Token. Implementiert gruppierte Abfrage-Aufmerksamkeit, bei der mehrere Abfrage-Köpfe dieselben KV-Paare teilen. Das ist weniger als die Hälfte der Kosten von GPT-2, basierend auf der Erkenntnis, dass viele Köpfe redundante Repräsentationen lernten.
  • DeepSeek V3 (2024): 68,6 KiB/Token. Verwendet latente Multi-Head-Aufmerksamkeit, die KV-Paare in einen niedrigdimensionalen latenten Raum komprimiert und bei der Inferenz dekomprimiert. Dies ist ein 671B-Parameter-Modell mit 37B aktiven Parametern via MoE. Die Ablationsstudien von DeepSeek V2, auf denen die Architektur von V3 aufbaut, zeigten, dass die komprimierte Darstellung bei mehreren Benchmarks mit der Standard-MHA gleichzog oder sie leicht übertraf.
  • Gemma 3 (2025): Verwendet GQA plus ein gleitendes Fenster mit 5:1 lokaler-zu-globaler Aufmerksamkeit in Schichten, wobei lokale Schichten nur 1.024 Token beachten. Zeigt fast keinen Perplexity-Verlust durch das aggressive Filtern.
  • Mamba/SSMs (2023): Kein KV-Cache. Verwendet einen festen Hidden State, der pro Token aktualisiert wird. Das Modell entscheidet in Echtzeit, was komprimiert werden soll, anstatt alles zu speichern und später zu beachten.
Ad

Architektonische Lücken und praktische Implikationen

Die Analyse hebt eine Lücke zwischen Arbeitsgedächtnis und permanentem Wissen in aktuellen Architekturen hervor. Der KV-Cache besteht für Sekunden bis Minuten (gemeldete Cache-Lebensdauern sind 5-10 Minuten, je nach Anbieter und Auslastung) und verschwindet dann. Zwischen dem temporären Cache und den permanenten Gewichten gibt es keinen nativen mittelfristigen Speicher oder architektonischen Slot für Informationen wie "Ich habe mit diesem Nutzer letzten Dienstag gesprochen".

Aktuelle Lösungen wie RAG, Dateisysteme, Vektor-Datenbanken und System-Prompts, die kuratierten Kontext transportieren, werden als "Brücken über eine architektonische Leere" beschrieben - Nachschlage-Systeme, die an Modelle ohne internen mittelfristigen Speicher angeflanscht sind.

Das Komprimierungsproblem veranschaulicht diese Einschränkung. Wenn der Kontext zu groß wird, fassen Modelle ihre eigene Historie zusammen, löschen den Cache und fahren mit der Zusammenfassung fort. Dies kann zu Präzisionsverlust führen (eine Veröffentlichungsrichtlinie mit sechs Regeln wird zu "etwas über redaktionelle Richtlinien") und Modelle arbeiten selbstbewusst mit verschlechtertem Kontext, ohne zu wissen, was verloren ging.

Cursor's gelernte Komprimierungsmethode trainiert Modelle via RL, sich selbst gut zusammenzufassen, anstatt nur Komprimierung anzustoßen, aber die Evidenz ist auf einen Coding-Benchmark beschränkt. Code liefert klare Belohnungssignale (Tests bestehen oder scheitern), anders als Szenarien wie das Komprimieren redaktioneller Notizen, strategische Planung oder Konversationen, bei denen kritische Details für viele Nachrichten nicht benötigt werden.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Anthropic-Quellcode-Leaks enthüllen nicht angekündigte Claude-Funktionen und interne Modelle
Nachrichten

Anthropic-Quellcode-Leaks enthüllen nicht angekündigte Claude-Funktionen und interne Modelle

Anthropic hat versehentlich 500.000 Zeilen Quellcode durchsickern lassen, die Details über unangekündigte Claude-Funktionen enthielten, darunter KAIROS-Hintergrundausführung, Traummodus, Undercover-Modus und ein internes Modell namens Capybara. Dies ist der zweite derartige Leak im Jahr 2025.

OpenClawRadar
Claude Code Leistungsrückgang diagnostiziert: Konfiguration, nicht Modellintelligenz
Nachrichten

Claude Code Leistungsrückgang diagnostiziert: Konfiguration, nicht Modellintelligenz

Anthropics Postmortem zeigt, dass der Leistungsabfall von Claude Code auf drei Produktänderungen zurückzuführen war – Standard-Reasoning-Aufwand, Session-Caching-Fehler und Prompt-Wortreduktion – nicht auf eine Verschlechterung des Modells. Der Rollback stellte die Leistung wieder her.

OpenClawRadar
Lokaler LLM-Benchmark: Backend-Generierung durch Funktionsaufruf – GLM, Qwen, DeepSeek im Vergleich
Nachrichten

Lokaler LLM-Benchmark: Backend-Generierung durch Funktionsaufruf – GLM, Qwen, DeepSeek im Vergleich

Ein rigoroser Benchmark lokaler und Frontier-LLMs für Backend-Code-Generierung mittels Function Calling, mit Bewertungsmatrix. Wichtigste Ergebnisse: qwen3.5-35b-a3b erreicht GPT-5.4 bei DB/API-Design und dichtes Qwen 27B schlägt 397B MoE. Frontier-Modelle wurden aufgrund der Kosten gestrichen.

OpenClawRadar
Nvidias Nemotron 3 Super: 120-Milliarden-Parameter-Modell mit 12 Milliarden aktiven Inferenzparametern
Nachrichten

Nvidias Nemotron 3 Super: 120-Milliarden-Parameter-Modell mit 12 Milliarden aktiven Inferenzparametern

Nvidias Nemotron 3 Super verfügt über insgesamt 120 Milliarden Parameter, aktiviert jedoch während der Inferenz nur 12 Milliarden. Dadurch erreicht es das Wissen eines 120-Milliarden-Modells zu etwa den Rechenkosten eines 12-Milliarden-Modells, und zwar durch effizientes Routing statt Kompression.

OpenClawRadar