Analyse approfondie de la quantification du cache KV de Qwen : PPL, divergence KL et résultats asymétriques K/V

✍️ OpenClawRadar📅 Publié: April 29, 2026🔗 Source
Analyse approfondie de la quantification du cache KV de Qwen : PPL, divergence KL et résultats asymétriques K/V
Ad

Benchmarks de suivi pour Qwen 3.6-35B-A3B Q8 avec quantification du cache KV en utilisant le fork TheTom TurboQuant (feature/turboquant-kv-cache) sur un M5 Max. Cette série couvre la perplexité, la divergence KL, les combinaisons K/V asymétriques et un point de données à 64K de profondeur.

Résultats de qualité (Perplexité + divergence KL)

Taille de contexte 4096 sur wikitext-2. f16 utilisé comme référence pour les logits.

  • q8_0 : PPL 5,7433, KL 0,0016, accord top-1 de 98,64 % — essentiellement gratuit à 4K de contexte (delta PPL -0,0005 dans ±0,036 d'écart type).
  • turbo3 (~4,9x) : PPL 5,8092, KL 0,0199, accord top-1 de 93,93 % — ~1 % d'augmentation de PPL, 5 pp de désaccord sur les tokens.
  • turbo4 (~3,8x) : PPL 5,7810, KL 0,0131, accord top-1 de 95,28 % — se situe entre q8_0 et turbo3, cohérent avec le taux de compression.

Le coût en qualité augmente avec la compression, sans surprise.

Balayage K/V asymétrique

Tokens/s en décodage avec llama-bench, mêmes options que le balayage symétrique. Configurations clés :

  • -ctk q8_0 -ctv turbo4 se démarque : à 256K, le débit correspond au q8_0 symétrique (27,1 contre 26,6 tg), tient dans 512K là où le q8_0 symétrique manquait de mémoire. Offre une pré-remplissage de qualité q8_0 avec un plafond de contexte de type turbo4.
  • -ctk q8_0 -ctv turbo3 : astuce similaire mais décodage moins bon (quantification V plus serrée pénalise la génération).
  • -ctk f16 -ctv turbo4 : cassé sur Metal — le noyau FlashAttention ne gère pas cette combinaison en voie rapide, retombe sur une attention générique de déquantification. À 8K, c'est 34 fois plus lent que le f16 symétrique ; à 128K, c'est 78 fois plus lent (4,1 t/s en pré-remplissage). À ne pas utiliser.

Exemple de tokens/s en décodage à 128K de profondeur : q8_0 K/turbo4 V 41.0, q8_0 K/turbo3 V 38.2, f16 K/turbo4 V 2.8.

Ad

Ligne à 64K de profondeur

Les sept configurations à une profondeur de 65536 (pp512 / tg128 en tokens/s) :

  • f16 symétrique : 602.0 / 59.8
  • q8_0 symétrique : 479.2 / 57.9
  • turbo3 symétrique : 469.8 / 49.9
  • turbo4 symétrique : 418.0 / 55.2
  • q8_0 K / turbo4 V : 468.2 / 55.9
  • q8_0 K / turbo3 V : 465.6 / 52.6
  • f16 K / turbo4 V : 8.3 / 4.9

Les courbes de pré-remplissage convergent presque à 64K : turbo3 (470) à 2% près de q8_0 (479). Le régime limité par la bande passante s'enclenche entre 64K et 128K.

Recommandation mise à jour

Pour les agents de codage (contexte profond, nombreux tokens générés) : utilisez -ctk q8_0 -ctv turbo4. Qualité q8_0 sur K, économies turbo4 sur V, tient dans 512K. Pour le RAG ou le QA par lots (pré-remplissage lourd, décodage plus léger), le q8_0 ou turbo4 symétrique reste viable.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Claude-Code v2.1.94 ajoute la prise en charge de Mantle et corrige des bugs critiques.
News

Claude-Code v2.1.94 ajoute la prise en charge de Mantle et corrige des bugs critiques.

Claude-Code v2.1.94 introduit la prise en charge d'Amazon Bedrock via Mantle avec la variable d'environnement CLAUDE_CODE_USE_MANTLE=1, modifie le niveau d'effort par défaut à élevé pour la plupart des utilisateurs, et corrige plus de 15 bogues incluant la gestion des limites de débit, les problèmes de connexion sur macOS et les problèmes du système de plugins.

OpenClawRadar
L'Occident a oublié comment construire : l'effondrement de la chaîne d'approvisionnement de la défense et les leçons pour le génie logiciel
News

L'Occident a oublié comment construire : l'effondrement de la chaîne d'approvisionnement de la défense et les leçons pour le génie logiciel

Raytheon a dû rappeler des ingénieurs à la retraite pour relancer la production de missiles Stinger à partir de schémas vieux de 40 ans. Le même schéma se reproduit aujourd'hui dans le logiciel, où des décennies d'optimisation des coûts ont atrophié le vivier de talents et les connaissances institutionnelles.

OpenClawRadar
OpenClaw Donne du Pouvoir aux Développeurs avec des Agents IA, tandis que GethCity Innove avec des Réseaux Pensants.
News

OpenClaw Donne du Pouvoir aux Développeurs avec des Agents IA, tandis que GethCity Innove avec des Réseaux Pensants.

OpenClaw lance un service d'agent IA, rendant le codage plus rapide et plus efficace, tandis que GethCity introduit un réseau qui imite les processus de pensée humains. Découvrez les innovations qui propulsent l'automatisation.

OpenClawRadar
Étude de l'ETH Zurich : Un contexte excessif réduit les performances des agents d'IA en programmation
News

Étude de l'ETH Zurich : Un contexte excessif réduit les performances des agents d'IA en programmation

Une étude de l'ETH Zurich a testé quatre agents de codage sur 138 tâches réelles de GitHub et a constaté que les fichiers de contexte générés par LLM réduisaient les taux de réussite des tâches de 2 à 3 % tout en augmentant les coûts d'inférence de 20 %. Le contexte écrit par l'homme n'a amélioré la réussite que d'environ 4 % avec des augmentations de coûts significatives.

OpenClawRadar