Qwen 3.6 27B Local : Test en Validateur Codex

Un développeur sur r/LocalLLaMA utilise un modèle Qwen local aux côtés de Codex d'OpenAI comme validateur et challenger, et a construit une petite suite d'évaluation reproductible pour quantifier les profils de quantification GGUF les plus adaptés à ce rôle. Le flux de travail : Codex s'occupe du travail principal sur le dépôt ; le Qwen local conteste le plan, vérifie les surconstructions, les directives dures manquées, les problèmes d'interface/design, les mauvaises hypothèses et les oublis de long-contexte. L'auteur examine chaque interaction avant de continuer.

Configuration de la suite d'évaluation

La suite teste les profils GGUF de Qwen 3.6 27B via llama.cpp, incluant les variantes Bartowski et Unsloth à différentes tailles de contexte et formats de cache KV (q8, f16). L'accent est mis sur les échecs réels : directives manquées, mauvais comportement de challenge, surconstruction, jugement UI, et oublis de long-contexte.

Résultats clés

Les profils les plus performants sur cette suite étaient : bartowski-128k-f16, bartowski-128k-q8 et unsloth-128k-q8. Tous trois étaient à égalité en termes de précision.
Le cache KV q8 n'a montré aucune perte de précision mesurée dans cette suite spécifique.
La taille du contexte était plus importante que le format du cache KV (f16 vs q8) pour ce flux de travail. Les profils 65k ont échoué lorsque la suite nécessitait plus de 65k tokens.
unsloth-128k-f16 s'est chargé mais a rencontré des problèmes de mémoire/bande passante sur les cas long-contexte avec une RTX 5090.

Observations pratiques

L'auteur rapporte que Qwen est extrêmement efficace pour détecter les passages à vide silencieux, les surconstructions et les raccourcis de programmation jusqu'à la fin chez Codex. Pour les tâches liées à l'interface utilisateur, Qwen prend la tête en matière de design pendant que Codex implémente. Les rôles s'inversent : Qwen conteste le plan, et l'humain examine avant chaque étape.

Ressources

Page du projet : https://robert896r1.github.io/qwen-realworld-accuracy-evals/
Dépôt : https://github.com/robert896r1/qwen-realworld-accuracy-evals

📖 Lire la source complète : r/LocalLLaMA

Test du Qwen 3.6 27B local en tant que co-agent validateur Codex

Configuration de la suite d'évaluation

Résultats clés

Observations pratiques

Ressources

👀 See Also

Via Couche d’Intégration Universelle Open Source, Connecte les Outils d’IA à un Bus de Contexte Partagé

Le moteur d'inférence Atlas devient open source : Rust pur + CUDA, plus de 100 tok/s sur DGX Spark

Claude Code réécrit l'analyseur SQL de PostHog pour un gain de vitesse de 70x – Comment le test basé sur les propriétés et les agents parallèles ont fonctionné

Agents Observe : Tableau de bord en temps réel pour la surveillance des équipes d'agents de code Claude