La réutilisation du cache KV pour les conversations longues sur Apple Silicon offre une accélération de 200x

Ce que c'est
Un développeur a partagé des résultats expérimentaux de la mise en œuvre de la réutilisation du cache KV (clé-valeur) basée sur des sessions pour l'inférence LLM locale sur Apple Silicon en utilisant le framework MLX. L'objectif était de rendre les longues conversations (100K+ tokens) pratiques en éliminant le besoin de retraiter l'intégralité du contexte à chaque tour.
Principales découvertes et benchmarks
L'approche principale consistait à conserver le cache KV en mémoire à travers les tours de conversation et à ne traiter que les nouveaux tokens. Cette idée simple a produit des améliorations de performances spectaculaires :
- Amélioration de 200x du TTFT à 100K de contexte : Sans cache : 126 secondes. Avec cache : 0,5 seconde. Cela représente une réduction de 99,9 % des tokens traités.
- Nombres de session en conditions réelles : Les tests avec un modèle Qwen3.5-397B sur un Mac Studio M3 Ultra 512GB lors d'une session d'agent OpenClaw de 266 messages ont montré :
- Taux de succès du cache : 93,8 %
- TTFT pour les succès du cache (<500 nouveaux tokens) : 1,0-1,3 secondes
- TTFT pour un échec complet du cache (124K tokens) : 528 secondes (8,8 minutes)
Ce qui n'a pas fonctionné
Le développeur a testé plusieurs tentatives d'optimisation qui ont échoué ou dégradé les performances :
- Élagage des tokens de réflexion : Tenter de retirer les tokens de raisonnement interne du modèle du cache pour économiser de l'espace a provoqué un comportement pathologique. Les réponses sont devenues 31 % plus longues et la qualité a chuté, car le modèle fait référence à son raisonnement passé à travers les tours.
- Rotation du cache KV (8192 tokens) : Bien que cela ait fourni le meilleur taux de tokens par seconde (TPS), cela a fait perdre au modèle le contexte antérieur, avec un rappel chutant significativement (à 4 éléments sur 8).
- Quantification 8 bits du KV : Cela a entraîné une baisse de 16,5 % du TPS, car la surcharge de calcul dépassait les économies de bande passante mémoire.
Implémentation et matériel
L'implémentation fait partie d'un projet personnel open-source appelé SoloHeaven, disponible sous licence MIT sur GitHub : https://github.com/joongom/mlx-soloheaven. Le README contient les tables de benchmarks complètes.
Les tests ont été réalisés sur un Mac Studio M3 Ultra avec 512 Go de RAM et 4 To de stockage, en utilisant les modèles suivants convertis pour MLX :
- Qwen3.5-122B-A10B-bf16
- Qwen3.5-397B-A17B-MLX-8bit
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Correction du gonflement du contexte dans la mémoire automatique de Claude Code à l'aide d'un schéma de nommage et d'un script d'audit
Une compétence Claude Code impose un schéma de nommage à 3 types, un frontmatter obligatoire et un script d'audit bash pour dédupliquer les fichiers mémoire et réduire la charge contextuelle.

8 astuces avancées pour Claude Code : économies, gestion du contexte, commandes personnalisées
Conseils pratiques issus d'une utilisation quotidienne intensive de Claude Code, couvrant l'automatisation du workflow git, l'entrée d'images multimodales, le suivi de l'utilisation de l'API, la compression du contexte, la reprise de session, la gestion des règles, les déclencheurs de réflexion et les commandes personnalisées.

Compétences en marketing de Corey Haines pour les agents IA
Un ensemble de 25 compétences marketing pour agents IA a été ajouté à OpenClaw, couvrant l'optimisation des conversions, la rédaction publicitaire, l'analyse et l'ingénierie de croissance. La compétence d'optimisation des conversions est notée comme particulièrement efficace dans les configurations multi-agents.

Claude Code Session Dashboard : Outil Open Source pour Surveiller Plusieurs Sessions
Un tableau de bord open-source qui surveille simultanément plusieurs sessions Claude Code, affichant l'utilisation des tokens, les coûts, l'état des sessions, l'utilisation de la fenêtre contextuelle et les sous-agents actifs. L'installation nécessite trois commandes : git clone, cd, et npm install && npm start.