Évolution de l'architecture du cache KV : de GPT-2 à Mamba

✍️ OpenClawRadar📅 Publié: March 29, 2026🔗 Source
Évolution de l'architecture du cache KV : de GPT-2 à Mamba
Ad

Coûts Mémoire du Cache KV à Travers les Architectures de Modèles

Une analyse récente de l'évolution de l'architecture du cache KV révèle des améliorations significatives de l'efficacité mémoire à travers les modèles de transformeurs. La progression montre comment différents mécanismes d'attention ont réduit la mémoire GPU nécessaire pour maintenir le contexte de conversation pendant l'inférence.

Comparaisons d'Architectures Spécifiques

  • GPT-2 (2019) : 300 Kio/par jeton. Utilise l'attention multi-têtes où chaque tête maintient ses propres clés et valeurs sans partage. Une conversation de 4 000 jetons nécessite environ 1,2 Go de mémoire GPU rien que pour le cache, séparément des poids du modèle.
  • Llama 3 (2024) : 128 Kio/par jeton. Implémente l'attention par requêtes groupées où plusieurs têtes de requête partagent les mêmes paires KV. Cela représente moins de la moitié du coût de GPT-2, basé sur l'idée que de nombreuses têtes apprenaient des représentations redondantes.
  • DeepSeek V3 (2024) : 68,6 Kio/par jeton. Utilise l'attention latente multi-têtes qui compresse les paires KV dans un espace latent de dimension inférieure et les décompresse à l'inférence. Il s'agit d'un modèle de 671B paramètres avec 37B actifs via MoE. Les études d'ablation de DeepSeek V2, sur lesquelles l'architecture de V3 s'appuie, ont montré que la représentation compressée égalait ou dépassait légèrement l'AMH standard sur plusieurs benchmarks.
  • Gemma 3 (2025) : Utilise GQA plus une fenêtre glissante avec des couches d'attention locale/globale 5:1, où les couches locales n'accordent de l'attention qu'à 1 024 jetons. Montre presque aucune perte de perplexité due au filtrage agressif.
  • Mamba/SSM (2023) : Aucun cache KV. Utilise un état caché de taille fixe mis à jour par jeton. Le modèle décide quoi compresser en temps réel plutôt que de tout stocker et d'y prêter attention plus tard.
Ad

Écarts Architecturaux et Implications Pratiques

L'analyse met en lumière un écart entre la mémoire de travail et la connaissance permanente dans les architectures actuelles. Le cache KV persiste pendant quelques secondes à quelques minutes (les durées de vie rapportées sont de 5 à 10 minutes, variant selon le fournisseur et la charge), puis disparaît. Entre le cache temporaire et les poids permanents, il n'y a pas de mémoire à moyen terme native ou d'emplacement architectural pour des informations comme "J'ai parlé à cet utilisateur mardi dernier".

Les solutions actuelles comme le RAG, les systèmes de fichiers, les bases de données vectorielles et les prompts système transportant un contexte organisé sont décrites comme des "ponts sur un vide architectural" - des systèmes de recherche greffés sur des modèles sans stockage interne à moyen terme.

Le problème de la compaction illustre cette limitation. Lorsque le contexte devient trop grand, les modèles résument leur propre historique, effacent le cache et continuent à partir du résumé. Cela peut entraîner une perte de précision (une politique de publication avec six règles devient "quelque chose sur les directives éditoriales") et les modèles opèrent avec confiance sur un contexte dégradé sans savoir ce qui a été perdu.

L'approche de compaction apprise de Cursor entraîne les modèles à bien se résumer eux-mêmes via RL plutôt que de simplement inciter à la compression, mais les preuves se limitent à un benchmark de codage. Le code fournit des signaux de récompense clairs (les tests réussissent ou échouent), contrairement à des scénarios comme la compaction de notes éditoriales, la planification stratégique ou les conversations où des détails critiques ne seront pas nécessaires avant de nombreux messages.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Recherche sur la cohérence des agents IA : Principaux résultats et enseignements pratiques
News

Recherche sur la cohérence des agents IA : Principaux résultats et enseignements pratiques

Une étude de 3 000 expériences sur Claude, GPT-4o et Llama révèle que les agents cohérents atteignent une précision de 80 à 92 %, tandis que les incohérents chutent à 25–60 %, 69 % des divergences survenant dès le premier appel d'outil.

OpenClawRadar
Anthropic ajoute une fonctionnalité d'importation de mémoire pour passer de ChatGPT/Gemini à Claude
News

Anthropic ajoute une fonctionnalité d'importation de mémoire pour passer de ChatGPT/Gemini à Claude

La nouvelle fonctionnalité d'importation de mémoire d'Anthropic permet aux utilisateurs de transférer leurs préférences, projets, contexte et style de travail depuis ChatGPT, Gemini ou d'autres IA vers Claude en environ deux étapes de copier-coller, éliminant le besoin de réentraîner à partir de zéro.

OpenClawRadar
Observations d'une compétition de 6 000 agents d'IA sur des tâches du monde réel
News

Observations d'une compétition de 6 000 agents d'IA sur des tâches du monde réel

Un marché où des agents d'IA s'affrontent sur des tâches comme la rédaction, la recherche et la génération de prospects a révélé qu'environ 30 % des soumissions sont du remplissage ou du spam, que les agents avec intervention humaine produisent la meilleure qualité, et que la compétition multi-agents génère des résultats exploitables parmi les 3 à 5 meilleures soumissions.

OpenClawRadar
Les agents IA qui ne réduisent pas les coûts de maintenance submergeront votre équipe
News

Les agents IA qui ne réduisent pas les coûts de maintenance submergeront votre équipe

James Shore avance que doubler la vitesse de codage de l'IA sans réduire de moitié les coûts de maintenance entraîne une perte de productivité nette en quelques mois. Le modèle montre qu'un rendement de code 2x avec un coût de maintenance 2x par ligne conduit à une productivité pire que le point de départ après environ 5 mois.

OpenClawRadar