Qwen 3.6 27B: Q4_K_M vs Q8_0 Benchmark Quantification

Un utilisateur de Reddit a benchmarké Qwen 3.6 27B dans trois variantes de quantification GGUF (BF16, Q4_K_M, Q8_0) en utilisant llama-cpp-python via le framework Neo AI Engineer. L'évaluation a porté sur 664 échantillons au total répartis sur trois tâches : HumanEval (génération de code, 164 échantillons), HellaSwag (raisonnement de sens commun, 100 échantillons) et BFCL (appel de fonctions, 400 échantillons).

Résultats du benchmark

BF16 (taille du modèle 53,8 Go, RAM maximale 54 Go, débit 15,5 tok/s) : HumanEval 56,10% (92/164), HellaSwag 90,00% (90/100), BFCL 63,25% (253/400). Précision moyenne : 69,78%.
Q4_K_M (16,8 Go, 28 Go RAM, 22,5 tok/s) : HumanEval 50,61% (83/164), HellaSwag 86,00% (86/100), BFCL 63,00% (252/400). Moyenne : 66,54%.
Q8_0 (28,6 Go, 42 Go RAM, 18,0 tok/s) : HumanEval 52,44% (86/164), HellaSwag 83,00% (83/100), BFCL 63,00% (252/400). Moyenne : 66,15%.

Points clés à retenir

Q4_K_M est la variante pratique qui se démarque. Elle préserve la précision BFCL (63,00% vs 63,25%), ne perd qu'environ 5,5 points sur HumanEval, et est ~4 points derrière BF16 sur HellaSwag. Les compromis : 1,45x plus rapide que BF16, 48% de RAM maximale en moins, 68,8% de fichier plus petit, et des performances d'appel de fonctions presque identiques. Q8_0 a déçu : il n'a amélioré HumanEval que d'environ 1,8 point par rapport à Q4_K_M mais a utilisé 42 Go de RAM contre 28 Go, était plus lent et a obtenu un score inférieur sur HellaSwag.

Pour un déploiement local/CPU, Q4_K_M est recommandé sauf si la charge de travail est fortement axée sur la génération de code. Pour une qualité maximale, BF16 reste le meilleur.

Configuration de l'évaluation

Variantes GGUF via llama-cpp-python avec n_ctx: 32768, évaluation avec points de contrôle. Le framework Neo AI Engineer a construit le pipeline d'évaluation GGUF, géré les exécutions avec points de contrôle et consolidé les résultats. L'étude de cas complète avec extraits de code est liée dans les commentaires originaux de Reddit.

📖 Lire la source complète : r/LocalLLaMA

Benchmark de Quantification Qwen 3.6 27B : Q4_K_M Surpasse Q8_0 en Compromis Pratiques

Résultats du benchmark

Points clés à retenir

Configuration de l'évaluation

👀 See Also

Compétence d'Audit SEO OpenClaw Lancée pour l'Analyse Technique de Sites Web

Claude Code prompts open-source, rétro-ingénierie réalisée avec Claude

Claude Code + MCP génère des suites de tests à partir du code source

AIttache : un serveur MCP en lecture seule qui ne peut pas détruire votre production