Bench Qwen 3.6-35B-A3B : f16 vs q8

Un utilisateur de Reddit a effectué un balayage de profondeur sur Qwen 3.6-35B-A3B Q8 en utilisant le fork TurboQuant Metal de TheTom de llama.cpp (GitHub: TheTom/llama-cpp-turboquant, branche feature/turboquant-kv-cache) sur un MacBook Pro M5 Max avec 128 Go de mémoire unifiée. Ils ont testé quatre types de cache KV : f16, q8_0, turbo3 (3 bits) et turbo4 (4 bits), K et V symétriques, avec flash-attn activé et mlock activé, de 0 à 1M de tokens de contexte.

Matériel et compilation

M5 Max, 128 Go de mémoire unifiée. Compilé avec cmake -B build -DGGML_METAL=ON. Utilisation de llama-bench, 3 répétitions par cellule, flash-attn activé, mlock activé. 8 heures de temps réel pendant la nuit.

Débit de génération (tok/s)

Profondeur	f16	q8_0	turbo3	turbo4
0	89,4	87,4	79,5	79,7
8K	84,2	79,2	72,2	71,2
32K	72,6	67,8	61,5	61,8
128K	44,4	40,7	36,0	37,7
256K	OOM	26,6	22,9	25,5
512K	OOM	OOM	13,3	16,0
1M	OOM	OOM	6,5	OOM

Débit de traitement des prompts (tok/s)

Profondeur	f16	q8_0	turbo3	turbo4
0	2962	2948	2904	2854
8K	2098	1623	1653	1439
32K	1063	802	784	678
128K	321	245	253	206
256K	OOM	124	128	101
512K	OOM	OOM	66	56
1M	OOM	OOM	30	OOM

Principaux enseignements

À profondeur 0, f16 mène de justesse sur le préremplissage ; turbo3 est ~10% plus lent en décodage.
À 128K, le préremplissage de turbo3 (253 tok/s) égalise q8_0 (245 tok/s) — un cache plus petit réduit la pression sur la bande passante.
À 256K, turbo3 gagne le préremplissage de +27% par rapport à turbo4 (128 contre 101), mais turbo4 gagne le décodage de +11% (25,5 contre 22,9). À 512K, l'écart en décodage s'élargit à +20% (turbo4 16,0 contre turbo3 13,3).
turbo3 est le seul type de cache qui tient dans 1M de contexte (6,5 tok/s en décodage). Mémoire à 1M : ~89 Go (37 Go de poids, ~52 Go de cache KV).

Recommandations selon la charge de travail

Agents de codage (contexte profond, nombreux tokens générés) : turbo4
RAG / QA par lots (préremplissage lourd, réponses courtes) : turbo3
Contexte de 1M : turbo3 uniquement
Interactif court (<32K) : f16 si ça tient, sinon q8_0

Limitations

Ceci est un seul M5 Max. Les points de croisement changent probablement avec la mémoire et les cœurs GPU. Seul K/V symétrique a été testé. Les combinaisons asymétriques (par ex., -ctk q8_0 -ctv turbo4) n'ont pas été évaluées. Le fork de TheTom est de niveau recherche, pas encore intégré dans llama.cpp principal.

📖 Lire la source complète : r/LocalLLaMA

Bench du cache KV Qwen 3.6-35B-A3B : f16 vs q8_0 vs Turbo3 vs Turbo4 sur M5 Max jusqu'à 1M de contexte

Matériel et compilation

Débit de génération (tok/s)

Débit de traitement des prompts (tok/s)

Principaux enseignements

Recommandations selon la charge de travail

Limitations

👀 See Also

Claude Fable 5 d'Anthropic : Capacités de classe Mythos, Conservation des données requise

Machine à flux d'état : l'architecture non-transformeuse maintient 62 % de précision sur les séquences longues, là où les transformateurs tombent à 2 %.

Enquête sur le bogue ACP : une incompatibilité de protocole provoque l'erreur 'metadata is missing' avec Ollama local

Rapport Anthropique sur l'Intensité de l'Adoption de l'IA à l'Échelle Mondiale