KV-Cache Evolution: GPT-2, Llama 3, DeepSeek V3 & Mamba

KV-Cache-Speicherkosten verschiedener Modellarchitekturen

Eine aktuelle Analyse der Entwicklung der KV-Cache-Architektur zeigt erhebliche Verbesserungen der Speichereffizienz bei Transformer-Modellen. Der Fortschritt verdeutlicht, wie verschiedene Aufmerksamkeitsmechanismen den für die Aufrechterhaltung des Konversationskontexts während der Inferenz benötigten GPU-Speicher reduziert haben.

Spezifische Architekturvergleiche

GPT-2 (2019): 300 KiB/Token. Verwendet Multi-Head-Aufmerksamkeit, bei der jeder Kopf seine eigenen Keys und Values ohne gemeinsame Nutzung verwaltet. Eine 4.000-Token-Konversation benötigt etwa 1,2 GB GPU-Speicher nur für den Cache, zusätzlich zu den Modellgewichten.
Llama 3 (2024): 128 KiB/Token. Implementiert gruppierte Abfrage-Aufmerksamkeit, bei der mehrere Abfrage-Köpfe dieselben KV-Paare teilen. Das ist weniger als die Hälfte der Kosten von GPT-2, basierend auf der Erkenntnis, dass viele Köpfe redundante Repräsentationen lernten.
DeepSeek V3 (2024): 68,6 KiB/Token. Verwendet latente Multi-Head-Aufmerksamkeit, die KV-Paare in einen niedrigdimensionalen latenten Raum komprimiert und bei der Inferenz dekomprimiert. Dies ist ein 671B-Parameter-Modell mit 37B aktiven Parametern via MoE. Die Ablationsstudien von DeepSeek V2, auf denen die Architektur von V3 aufbaut, zeigten, dass die komprimierte Darstellung bei mehreren Benchmarks mit der Standard-MHA gleichzog oder sie leicht übertraf.
Gemma 3 (2025): Verwendet GQA plus ein gleitendes Fenster mit 5:1 lokaler-zu-globaler Aufmerksamkeit in Schichten, wobei lokale Schichten nur 1.024 Token beachten. Zeigt fast keinen Perplexity-Verlust durch das aggressive Filtern.
Mamba/SSMs (2023): Kein KV-Cache. Verwendet einen festen Hidden State, der pro Token aktualisiert wird. Das Modell entscheidet in Echtzeit, was komprimiert werden soll, anstatt alles zu speichern und später zu beachten.

Architektonische Lücken und praktische Implikationen

Die Analyse hebt eine Lücke zwischen Arbeitsgedächtnis und permanentem Wissen in aktuellen Architekturen hervor. Der KV-Cache besteht für Sekunden bis Minuten (gemeldete Cache-Lebensdauern sind 5-10 Minuten, je nach Anbieter und Auslastung) und verschwindet dann. Zwischen dem temporären Cache und den permanenten Gewichten gibt es keinen nativen mittelfristigen Speicher oder architektonischen Slot für Informationen wie "Ich habe mit diesem Nutzer letzten Dienstag gesprochen".

Aktuelle Lösungen wie RAG, Dateisysteme, Vektor-Datenbanken und System-Prompts, die kuratierten Kontext transportieren, werden als "Brücken über eine architektonische Leere" beschrieben - Nachschlage-Systeme, die an Modelle ohne internen mittelfristigen Speicher angeflanscht sind.

Das Komprimierungsproblem veranschaulicht diese Einschränkung. Wenn der Kontext zu groß wird, fassen Modelle ihre eigene Historie zusammen, löschen den Cache und fahren mit der Zusammenfassung fort. Dies kann zu Präzisionsverlust führen (eine Veröffentlichungsrichtlinie mit sechs Regeln wird zu "etwas über redaktionelle Richtlinien") und Modelle arbeiten selbstbewusst mit verschlechtertem Kontext, ohne zu wissen, was verloren ging.

Cursor's gelernte Komprimierungsmethode trainiert Modelle via RL, sich selbst gut zusammenzufassen, anstatt nur Komprimierung anzustoßen, aber die Evidenz ist auf einen Coding-Benchmark beschränkt. Code liefert klare Belohnungssignale (Tests bestehen oder scheitern), anders als Szenarien wie das Komprimieren redaktioneller Notizen, strategische Planung oder Konversationen, bei denen kritische Details für viele Nachrichten nicht benötigt werden.

📖 Read the full source: r/LocalLLaMA

KV-Cache-Architektur-Evolution: Von GPT-2 bis Mamba

KV-Cache-Speicherkosten verschiedener Modellarchitekturen

Spezifische Architekturvergleiche

Architektonische Lücken und praktische Implikationen

👀 Siehe auch

Synthetische Gesellschaft: KI-Agenten Bauen Virtuelle Leben auf Moltbook

Bewertung von Show HN-Einreichungen für KI-Designmuster

Claude Fabel 5: Produktionsfehler um das 20-fache unterzählt — Lesen Sie Abschnitt 2.3.3

Sarvam AI veröffentlicht 30B und 105B Open-Source-LLMs mit indischer Trainingsinfrastruktur.