Cache KV : 300 Kio à 0 Kio avec Mamba

Coûts Mémoire du Cache KV à Travers les Architectures de Modèles

Une analyse récente de l'évolution de l'architecture du cache KV révèle des améliorations significatives de l'efficacité mémoire à travers les modèles de transformeurs. La progression montre comment différents mécanismes d'attention ont réduit la mémoire GPU nécessaire pour maintenir le contexte de conversation pendant l'inférence.

Comparaisons d'Architectures Spécifiques

GPT-2 (2019) : 300 Kio/par jeton. Utilise l'attention multi-têtes où chaque tête maintient ses propres clés et valeurs sans partage. Une conversation de 4 000 jetons nécessite environ 1,2 Go de mémoire GPU rien que pour le cache, séparément des poids du modèle.
Llama 3 (2024) : 128 Kio/par jeton. Implémente l'attention par requêtes groupées où plusieurs têtes de requête partagent les mêmes paires KV. Cela représente moins de la moitié du coût de GPT-2, basé sur l'idée que de nombreuses têtes apprenaient des représentations redondantes.
DeepSeek V3 (2024) : 68,6 Kio/par jeton. Utilise l'attention latente multi-têtes qui compresse les paires KV dans un espace latent de dimension inférieure et les décompresse à l'inférence. Il s'agit d'un modèle de 671B paramètres avec 37B actifs via MoE. Les études d'ablation de DeepSeek V2, sur lesquelles l'architecture de V3 s'appuie, ont montré que la représentation compressée égalait ou dépassait légèrement l'AMH standard sur plusieurs benchmarks.
Gemma 3 (2025) : Utilise GQA plus une fenêtre glissante avec des couches d'attention locale/globale 5:1, où les couches locales n'accordent de l'attention qu'à 1 024 jetons. Montre presque aucune perte de perplexité due au filtrage agressif.
Mamba/SSM (2023) : Aucun cache KV. Utilise un état caché de taille fixe mis à jour par jeton. Le modèle décide quoi compresser en temps réel plutôt que de tout stocker et d'y prêter attention plus tard.

Écarts Architecturaux et Implications Pratiques

L'analyse met en lumière un écart entre la mémoire de travail et la connaissance permanente dans les architectures actuelles. Le cache KV persiste pendant quelques secondes à quelques minutes (les durées de vie rapportées sont de 5 à 10 minutes, variant selon le fournisseur et la charge), puis disparaît. Entre le cache temporaire et les poids permanents, il n'y a pas de mémoire à moyen terme native ou d'emplacement architectural pour des informations comme "J'ai parlé à cet utilisateur mardi dernier".

Les solutions actuelles comme le RAG, les systèmes de fichiers, les bases de données vectorielles et les prompts système transportant un contexte organisé sont décrites comme des "ponts sur un vide architectural" - des systèmes de recherche greffés sur des modèles sans stockage interne à moyen terme.

Le problème de la compaction illustre cette limitation. Lorsque le contexte devient trop grand, les modèles résument leur propre historique, effacent le cache et continuent à partir du résumé. Cela peut entraîner une perte de précision (une politique de publication avec six règles devient "quelque chose sur les directives éditoriales") et les modèles opèrent avec confiance sur un contexte dégradé sans savoir ce qui a été perdu.

L'approche de compaction apprise de Cursor entraîne les modèles à bien se résumer eux-mêmes via RL plutôt que de simplement inciter à la compression, mais les preuves se limitent à un benchmark de codage. Le code fournit des signaux de récompense clairs (les tests réussissent ou échouent), contrairement à des scénarios comme la compaction de notes éditoriales, la planification stratégique ou les conversations où des détails critiques ne seront pas nécessaires avant de nombreux messages.

📖 Read the full source: r/LocalLLaMA

Évolution de l'architecture du cache KV : de GPT-2 à Mamba

Coûts Mémoire du Cache KV à Travers les Architectures de Modèles

Comparaisons d'Architectures Spécifiques

Écarts Architecturaux et Implications Pratiques

👀 See Also

Système d'animal de compagnie caché découvert dans la fuite du code Claude : mécaniques de gacha avec animations ASCII

Un développeur abandonne Cursor Composer 2 et Kimi 2.6 pour Qwen3.6:35b-a3b dans les charges de travail d'entreprise

Des chiens-robots alimentés par l'IA déployés pour la surveillance à Atlanta

Risques de litige dans les structures de financement des centres de données d'IA