Bench du cache KV Qwen 3.6-35B-A3B : f16 vs q8_0 vs Turbo3 vs Turbo4 sur M5 Max jusqu'à 1M de contexte

Un utilisateur de Reddit a effectué un balayage de profondeur sur Qwen 3.6-35B-A3B Q8 en utilisant le fork TurboQuant Metal de TheTom de llama.cpp (GitHub: TheTom/llama-cpp-turboquant, branche feature/turboquant-kv-cache) sur un MacBook Pro M5 Max avec 128 Go de mémoire unifiée. Ils ont testé quatre types de cache KV : f16, q8_0, turbo3 (3 bits) et turbo4 (4 bits), K et V symétriques, avec flash-attn activé et mlock activé, de 0 à 1M de tokens de contexte.
Matériel et compilation
M5 Max, 128 Go de mémoire unifiée. Compilé avec cmake -B build -DGGML_METAL=ON. Utilisation de llama-bench, 3 répétitions par cellule, flash-attn activé, mlock activé. 8 heures de temps réel pendant la nuit.
Débit de génération (tok/s)
| Profondeur | f16 | q8_0 | turbo3 | turbo4 |
|---|---|---|---|---|
| 0 | 89,4 | 87,4 | 79,5 | 79,7 |
| 8K | 84,2 | 79,2 | 72,2 | 71,2 |
| 32K | 72,6 | 67,8 | 61,5 | 61,8 |
| 128K | 44,4 | 40,7 | 36,0 | 37,7 |
| 256K | OOM | 26,6 | 22,9 | 25,5 |
| 512K | OOM | OOM | 13,3 | 16,0 |
| 1M | OOM | OOM | 6,5 | OOM |
Débit de traitement des prompts (tok/s)
| Profondeur | f16 | q8_0 | turbo3 | turbo4 |
|---|---|---|---|---|
| 0 | 2962 | 2948 | 2904 | 2854 |
| 8K | 2098 | 1623 | 1653 | 1439 |
| 32K | 1063 | 802 | 784 | 678 |
| 128K | 321 | 245 | 253 | 206 |
| 256K | OOM | 124 | 128 | 101 |
| 512K | OOM | OOM | 66 | 56 |
| 1M | OOM | OOM | 30 | OOM |
Principaux enseignements
- À profondeur 0, f16 mène de justesse sur le préremplissage ; turbo3 est ~10% plus lent en décodage.
- À 128K, le préremplissage de turbo3 (253 tok/s) égalise q8_0 (245 tok/s) — un cache plus petit réduit la pression sur la bande passante.
- À 256K, turbo3 gagne le préremplissage de +27% par rapport à turbo4 (128 contre 101), mais turbo4 gagne le décodage de +11% (25,5 contre 22,9). À 512K, l'écart en décodage s'élargit à +20% (turbo4 16,0 contre turbo3 13,3).
- turbo3 est le seul type de cache qui tient dans 1M de contexte (6,5 tok/s en décodage). Mémoire à 1M : ~89 Go (37 Go de poids, ~52 Go de cache KV).
Recommandations selon la charge de travail
- Agents de codage (contexte profond, nombreux tokens générés) : turbo4
- RAG / QA par lots (préremplissage lourd, réponses courtes) : turbo3
- Contexte de 1M : turbo3 uniquement
- Interactif court (<32K) : f16 si ça tient, sinon q8_0
Limitations
Ceci est un seul M5 Max. Les points de croisement changent probablement avec la mémoire et les cœurs GPU. Seul K/V symétrique a été testé. Les combinaisons asymétriques (par ex., -ctk q8_0 -ctv turbo4) n'ont pas été évaluées. Le fork de TheTom est de niveau recherche, pas encore intégré dans llama.cpp principal.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Sam Altman d'OpenAI soutient les lignes rouges du Pentagone d'Anthropic et propose des garde-fous techniques.
Sam Altman, PDG d'OpenAI, a exprimé son soutien à la position éthique d'Anthropic contre l'utilisation de l'IA par le Pentagone pour la surveillance de masse et les armes autonomes, tout en proposant des garanties techniques comme le déploiement exclusivement dans le cloud comme solution.

Une étude d'Anthropic révèle une dégradation cognitive dans les flux de travail assistés par l'IA
L'étude mondiale d'Anthropic sur 80 000 utilisateurs a révélé que les utilisateurs académiques signalent des taux de dégradation cognitive 2,5 fois supérieurs à la moyenne lorsqu'ils utilisent des outils d'IA comme Claude et Cursor. La source identifie le problème comme étant les utilisateurs qui éliminent la 'phase de digestion' du travail.

La version 2026.3.11 d'OpenClaw ajoute une configuration locale d'Ollama, une mémoire multimodale et des contrôles de fils de discussion Discord.
OpenClaw 2026.3.11 introduit une configuration Ollama de première classe avec des modes local uniquement ou hybride, ajoute l'indexation multimodale d'images et d'audio à la recherche en mémoire en utilisant les embeddings Gemini, et fournit des temps d'archivage configurables pour les fils Discord.

Résultats de référence : Modèles Qwen3.5 sur silicium Apple vs GPU AMD avec ROCm vs Vulkan
Un développeur a évalué les modèles Qwen3.5 (35B MoE, 27B dense, 122B MoE) sur des Mac à puce Apple Silicon et des stations de travail équipées de GPU AMD, en comparant les backends ROCm et Vulkan avec des tests d'échelle de contexte. Le matériel incluait un M5 Max, un M1 Max et trois GPU AMD avec différentes configurations PCIe.