Qwen 3.6-35B-A3B : Analyse quantification cache KV PPL KL

Benchmarks de suivi pour Qwen 3.6-35B-A3B Q8 avec quantification du cache KV en utilisant le fork TheTom TurboQuant (feature/turboquant-kv-cache) sur un M5 Max. Cette série couvre la perplexité, la divergence KL, les combinaisons K/V asymétriques et un point de données à 64K de profondeur.

Résultats de qualité (Perplexité + divergence KL)

Taille de contexte 4096 sur wikitext-2. f16 utilisé comme référence pour les logits.

q8_0 : PPL 5,7433, KL 0,0016, accord top-1 de 98,64 % — essentiellement gratuit à 4K de contexte (delta PPL -0,0005 dans ±0,036 d'écart type).
turbo3 (~4,9x) : PPL 5,8092, KL 0,0199, accord top-1 de 93,93 % — ~1 % d'augmentation de PPL, 5 pp de désaccord sur les tokens.
turbo4 (~3,8x) : PPL 5,7810, KL 0,0131, accord top-1 de 95,28 % — se situe entre q8_0 et turbo3, cohérent avec le taux de compression.

Le coût en qualité augmente avec la compression, sans surprise.

Balayage K/V asymétrique

Tokens/s en décodage avec llama-bench, mêmes options que le balayage symétrique. Configurations clés :

-ctk q8_0 -ctv turbo4 se démarque : à 256K, le débit correspond au q8_0 symétrique (27,1 contre 26,6 tg), tient dans 512K là où le q8_0 symétrique manquait de mémoire. Offre une pré-remplissage de qualité q8_0 avec un plafond de contexte de type turbo4.
-ctk q8_0 -ctv turbo3 : astuce similaire mais décodage moins bon (quantification V plus serrée pénalise la génération).
-ctk f16 -ctv turbo4 : cassé sur Metal — le noyau FlashAttention ne gère pas cette combinaison en voie rapide, retombe sur une attention générique de déquantification. À 8K, c'est 34 fois plus lent que le f16 symétrique ; à 128K, c'est 78 fois plus lent (4,1 t/s en pré-remplissage). À ne pas utiliser.

Exemple de tokens/s en décodage à 128K de profondeur : q8_0 K/turbo4 V 41.0, q8_0 K/turbo3 V 38.2, f16 K/turbo4 V 2.8.

Ligne à 64K de profondeur

Les sept configurations à une profondeur de 65536 (pp512 / tg128 en tokens/s) :

f16 symétrique : 602.0 / 59.8
q8_0 symétrique : 479.2 / 57.9
turbo3 symétrique : 469.8 / 49.9
turbo4 symétrique : 418.0 / 55.2
q8_0 K / turbo4 V : 468.2 / 55.9
q8_0 K / turbo3 V : 465.6 / 52.6
f16 K / turbo4 V : 8.3 / 4.9

Les courbes de pré-remplissage convergent presque à 64K : turbo3 (470) à 2% près de q8_0 (479). Le régime limité par la bande passante s'enclenche entre 64K et 128K.

Recommandation mise à jour

Pour les agents de codage (contexte profond, nombreux tokens générés) : utilisez -ctk q8_0 -ctv turbo4. Qualité q8_0 sur K, économies turbo4 sur V, tient dans 512K. Pour le RAG ou le QA par lots (pré-remplissage lourd, décodage plus léger), le q8_0 ou turbo4 symétrique reste viable.

📖 Lire la source complète : r/LocalLLaMA