Test du Qwen 3.6 27B local en tant que co-agent validateur Codex

✍️ OpenClawRadar📅 Publié: May 4, 2026🔗 Source
Test du Qwen 3.6 27B local en tant que co-agent validateur Codex
Ad

Un développeur sur r/LocalLLaMA utilise un modèle Qwen local aux côtés de Codex d'OpenAI comme validateur et challenger, et a construit une petite suite d'évaluation reproductible pour quantifier les profils de quantification GGUF les plus adaptés à ce rôle. Le flux de travail : Codex s'occupe du travail principal sur le dépôt ; le Qwen local conteste le plan, vérifie les surconstructions, les directives dures manquées, les problèmes d'interface/design, les mauvaises hypothèses et les oublis de long-contexte. L'auteur examine chaque interaction avant de continuer.

Configuration de la suite d'évaluation

La suite teste les profils GGUF de Qwen 3.6 27B via llama.cpp, incluant les variantes Bartowski et Unsloth à différentes tailles de contexte et formats de cache KV (q8, f16). L'accent est mis sur les échecs réels : directives manquées, mauvais comportement de challenge, surconstruction, jugement UI, et oublis de long-contexte.

Résultats clés

  • Les profils les plus performants sur cette suite étaient : bartowski-128k-f16, bartowski-128k-q8 et unsloth-128k-q8. Tous trois étaient à égalité en termes de précision.
  • Le cache KV q8 n'a montré aucune perte de précision mesurée dans cette suite spécifique.
  • La taille du contexte était plus importante que le format du cache KV (f16 vs q8) pour ce flux de travail. Les profils 65k ont échoué lorsque la suite nécessitait plus de 65k tokens.
  • unsloth-128k-f16 s'est chargé mais a rencontré des problèmes de mémoire/bande passante sur les cas long-contexte avec une RTX 5090.
Ad

Observations pratiques

L'auteur rapporte que Qwen est extrêmement efficace pour détecter les passages à vide silencieux, les surconstructions et les raccourcis de programmation jusqu'à la fin chez Codex. Pour les tâches liées à l'interface utilisateur, Qwen prend la tête en matière de design pendant que Codex implémente. Les rôles s'inversent : Qwen conteste le plan, et l'humain examine avant chaque étape.

Ressources

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Catégories de plugins OpenClaw et leurs fonctions pratiques
Tools

Catégories de plugins OpenClaw et leurs fonctions pratiques

Un post Reddit classe les plugins OpenClaw par fonction, listant des outils spécifiques comme commit-guard pour empêcher les fuites de secrets, dep-audit pour l'analyse de vulnérabilités, et cortex-memory pour la gestion de mémoire en couches.

OpenClawRadar
Serveur GodotIQ MCP donne aux agents de codage IA une compréhension spatiale des scènes Godot
Tools

Serveur GodotIQ MCP donne aux agents de codage IA une compréhension spatiale des scènes Godot

GodotIQ est un serveur MCP qui offre aux agents de codage une véritable compréhension des scènes 2D/3D, des signaux et des dépendances de code dans Godot. Lors d'un test, il a construit de manière autonome un jeu de survie twin-stick en une heure à partir d'assets et d'une invite.

OpenClawRadar
Claude Code Karma : Tableau de bord d'observabilité locale pour les sessions Claude Code
Tools

Claude Code Karma : Tableau de bord d'observabilité locale pour les sessions Claude Code

Claude Code Karma est un tableau de bord local open-source qui analyse les fichiers JSONL de ~/.claude/ pour visualiser les données des sessions Claude Code, suivre l'utilisation des outils et surveiller les échecs silencieux. Construit avec FastAPI, Svelte-Kit 2, Svelte 5 et SQLite, il fournit des chronologies complètes des sessions et un suivi en temps réel.

OpenClawRadar
Bespoke AI v0.8.1 : Extension d'auto-complétion VS Code pour le code et le texte
Tools

Bespoke AI v0.8.1 : Extension d'auto-complétion VS Code pour le code et le texte

Bespoke AI v0.8.1 est une extension VS Code qui fournit une fonctionnalité d'autocomplétion à la fois pour le code et le texte, exploitant les abonnements Claude Code via le SDK Agent d'Anthropic pour éviter les frais d'API tout en prenant en charge plusieurs backends dont Ollama.

OpenClawRadar