KV-Cache-Architektur-Evolution: Von GPT-2 bis Mamba

KV-Cache-Speicherkosten verschiedener Modellarchitekturen
Eine aktuelle Analyse der Entwicklung der KV-Cache-Architektur zeigt erhebliche Verbesserungen der Speichereffizienz bei Transformer-Modellen. Der Fortschritt verdeutlicht, wie verschiedene Aufmerksamkeitsmechanismen den für die Aufrechterhaltung des Konversationskontexts während der Inferenz benötigten GPU-Speicher reduziert haben.
Spezifische Architekturvergleiche
- GPT-2 (2019): 300 KiB/Token. Verwendet Multi-Head-Aufmerksamkeit, bei der jeder Kopf seine eigenen Keys und Values ohne gemeinsame Nutzung verwaltet. Eine 4.000-Token-Konversation benötigt etwa 1,2 GB GPU-Speicher nur für den Cache, zusätzlich zu den Modellgewichten.
- Llama 3 (2024): 128 KiB/Token. Implementiert gruppierte Abfrage-Aufmerksamkeit, bei der mehrere Abfrage-Köpfe dieselben KV-Paare teilen. Das ist weniger als die Hälfte der Kosten von GPT-2, basierend auf der Erkenntnis, dass viele Köpfe redundante Repräsentationen lernten.
- DeepSeek V3 (2024): 68,6 KiB/Token. Verwendet latente Multi-Head-Aufmerksamkeit, die KV-Paare in einen niedrigdimensionalen latenten Raum komprimiert und bei der Inferenz dekomprimiert. Dies ist ein 671B-Parameter-Modell mit 37B aktiven Parametern via MoE. Die Ablationsstudien von DeepSeek V2, auf denen die Architektur von V3 aufbaut, zeigten, dass die komprimierte Darstellung bei mehreren Benchmarks mit der Standard-MHA gleichzog oder sie leicht übertraf.
- Gemma 3 (2025): Verwendet GQA plus ein gleitendes Fenster mit 5:1 lokaler-zu-globaler Aufmerksamkeit in Schichten, wobei lokale Schichten nur 1.024 Token beachten. Zeigt fast keinen Perplexity-Verlust durch das aggressive Filtern.
- Mamba/SSMs (2023): Kein KV-Cache. Verwendet einen festen Hidden State, der pro Token aktualisiert wird. Das Modell entscheidet in Echtzeit, was komprimiert werden soll, anstatt alles zu speichern und später zu beachten.
Architektonische Lücken und praktische Implikationen
Die Analyse hebt eine Lücke zwischen Arbeitsgedächtnis und permanentem Wissen in aktuellen Architekturen hervor. Der KV-Cache besteht für Sekunden bis Minuten (gemeldete Cache-Lebensdauern sind 5-10 Minuten, je nach Anbieter und Auslastung) und verschwindet dann. Zwischen dem temporären Cache und den permanenten Gewichten gibt es keinen nativen mittelfristigen Speicher oder architektonischen Slot für Informationen wie "Ich habe mit diesem Nutzer letzten Dienstag gesprochen".
Aktuelle Lösungen wie RAG, Dateisysteme, Vektor-Datenbanken und System-Prompts, die kuratierten Kontext transportieren, werden als "Brücken über eine architektonische Leere" beschrieben - Nachschlage-Systeme, die an Modelle ohne internen mittelfristigen Speicher angeflanscht sind.
Das Komprimierungsproblem veranschaulicht diese Einschränkung. Wenn der Kontext zu groß wird, fassen Modelle ihre eigene Historie zusammen, löschen den Cache und fahren mit der Zusammenfassung fort. Dies kann zu Präzisionsverlust führen (eine Veröffentlichungsrichtlinie mit sechs Regeln wird zu "etwas über redaktionelle Richtlinien") und Modelle arbeiten selbstbewusst mit verschlechtertem Kontext, ohne zu wissen, was verloren ging.
Cursor's gelernte Komprimierungsmethode trainiert Modelle via RL, sich selbst gut zusammenzufassen, anstatt nur Komprimierung anzustoßen, aber die Evidenz ist auf einen Coding-Benchmark beschränkt. Code liefert klare Belohnungssignale (Tests bestehen oder scheitern), anders als Szenarien wie das Komprimieren redaktioneller Notizen, strategische Planung oder Konversationen, bei denen kritische Details für viele Nachrichten nicht benötigt werden.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Anthropic-Quellcode-Leaks enthüllen nicht angekündigte Claude-Funktionen und interne Modelle
Anthropic hat versehentlich 500.000 Zeilen Quellcode durchsickern lassen, die Details über unangekündigte Claude-Funktionen enthielten, darunter KAIROS-Hintergrundausführung, Traummodus, Undercover-Modus und ein internes Modell namens Capybara. Dies ist der zweite derartige Leak im Jahr 2025.

Claude Code Leistungsrückgang diagnostiziert: Konfiguration, nicht Modellintelligenz
Anthropics Postmortem zeigt, dass der Leistungsabfall von Claude Code auf drei Produktänderungen zurückzuführen war – Standard-Reasoning-Aufwand, Session-Caching-Fehler und Prompt-Wortreduktion – nicht auf eine Verschlechterung des Modells. Der Rollback stellte die Leistung wieder her.

Lokaler LLM-Benchmark: Backend-Generierung durch Funktionsaufruf – GLM, Qwen, DeepSeek im Vergleich
Ein rigoroser Benchmark lokaler und Frontier-LLMs für Backend-Code-Generierung mittels Function Calling, mit Bewertungsmatrix. Wichtigste Ergebnisse: qwen3.5-35b-a3b erreicht GPT-5.4 bei DB/API-Design und dichtes Qwen 27B schlägt 397B MoE. Frontier-Modelle wurden aufgrund der Kosten gestrichen.

Nvidias Nemotron 3 Super: 120-Milliarden-Parameter-Modell mit 12 Milliarden aktiven Inferenzparametern
Nvidias Nemotron 3 Super verfügt über insgesamt 120 Milliarden Parameter, aktiviert jedoch während der Inferenz nur 12 Milliarden. Dadurch erreicht es das Wissen eines 120-Milliarden-Modells zu etwa den Rechenkosten eines 12-Milliarden-Modells, und zwar durch effizientes Routing statt Kompression.