Benchmark de Quantification Qwen 3.6 27B : Q4_K_M Surpasse Q8_0 en Compromis Pratiques

Un utilisateur de Reddit a benchmarké Qwen 3.6 27B dans trois variantes de quantification GGUF (BF16, Q4_K_M, Q8_0) en utilisant llama-cpp-python via le framework Neo AI Engineer. L'évaluation a porté sur 664 échantillons au total répartis sur trois tâches : HumanEval (génération de code, 164 échantillons), HellaSwag (raisonnement de sens commun, 100 échantillons) et BFCL (appel de fonctions, 400 échantillons).
Résultats du benchmark
- BF16 (taille du modèle 53,8 Go, RAM maximale 54 Go, débit 15,5 tok/s) : HumanEval 56,10% (92/164), HellaSwag 90,00% (90/100), BFCL 63,25% (253/400). Précision moyenne : 69,78%.
- Q4_K_M (16,8 Go, 28 Go RAM, 22,5 tok/s) : HumanEval 50,61% (83/164), HellaSwag 86,00% (86/100), BFCL 63,00% (252/400). Moyenne : 66,54%.
- Q8_0 (28,6 Go, 42 Go RAM, 18,0 tok/s) : HumanEval 52,44% (86/164), HellaSwag 83,00% (83/100), BFCL 63,00% (252/400). Moyenne : 66,15%.
Points clés à retenir
Q4_K_M est la variante pratique qui se démarque. Elle préserve la précision BFCL (63,00% vs 63,25%), ne perd qu'environ 5,5 points sur HumanEval, et est ~4 points derrière BF16 sur HellaSwag. Les compromis : 1,45x plus rapide que BF16, 48% de RAM maximale en moins, 68,8% de fichier plus petit, et des performances d'appel de fonctions presque identiques. Q8_0 a déçu : il n'a amélioré HumanEval que d'environ 1,8 point par rapport à Q4_K_M mais a utilisé 42 Go de RAM contre 28 Go, était plus lent et a obtenu un score inférieur sur HellaSwag.
Pour un déploiement local/CPU, Q4_K_M est recommandé sauf si la charge de travail est fortement axée sur la génération de code. Pour une qualité maximale, BF16 reste le meilleur.
Configuration de l'évaluation
Variantes GGUF via llama-cpp-python avec n_ctx: 32768, évaluation avec points de contrôle. Le framework Neo AI Engineer a construit le pipeline d'évaluation GGUF, géré les exécutions avec points de contrôle et consolidé les résultats. L'étude de cas complète avec extraits de code est liée dans les commentaires originaux de Reddit.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

memv : Système de mémoire open source pour agents IA
memv est un système de mémoire open-source conçu pour les agents d'IA qui stocke uniquement les informations inattendues provenant des interactions, réduisant ainsi le bruit et la redondance.

Aura Research : Un outil local compile des documents en un wiki navigable par IA avec mémoire persistante
Aura Research est un outil open-source qui traite des documents bruts (PDF, articles, notes, code, 60+ formats) en un wiki structuré en markdown avec des articles liés, des pages de concepts et un index principal. Il compresse le tout dans une archive .aura optimisée pour la recherche RAG et fonctionne à 100% localement sans que vos données ne quittent votre machine.

Remarque : Un outil d'annotation Markdown pour les workflows de code Claude
Remark est une application native pour macOS qui permet aux développeurs d'annoter des fichiers Markdown en ligne pour les flux de travail de revue de code Claude. Elle exporte les annotations au format JSON pour l'agent et s'intègre via une compétence installée dans le répertoire .claude/skills/.

RCFlow : Orchestrateur open-source pour Claude Code, Codex et OpenCode avec gestion multi-session
RCFlow est un orchestrateur sous licence AGPL v3 pour les agents de codage IA (Claude Code, Codex, OpenCode) offrant une interface utilisateur unifiée pour gérer des sessions parallèles sur plusieurs machines, avec prise en charge des worktrees, planification des tâches, suivi des artefacts et télémétrie en direct.