Qwen 3.6 27B Benchmark: Co-Agent für Codex-Validierung

Ein Entwickler auf r/LocalLLaMA hat ein lokales Qwen-Modell neben OpenAIs Codex als Validator und Herausforderer betrieben und eine kleine reproduzierbare Evaluierungs-Suite erstellt, um zu quantifizieren, welche GGUF-Quant-Profile für diese Rolle am besten geeignet sind. Der Arbeitsablauf: Codex übernimmt die Hauptarbeit im Repository; das lokale Qwen hinterfragt den Plan, prüft auf Überbau, verpasste harte Vorgaben, UI-/Designprobleme, falsche Annahmen und verpasste lange Kontexte. Der Autor überprüft jede Interaktion, bevor es weitergeht.

Aufbau der Evaluierungs-Suite

Die Suite testet Qwen 3.6 27B GGUF-Profile über llama.cpp, einschließlich Bartowski- und Unsloth-Varianten mit verschiedenen Kontextgrößen und KV-Cache-Formaten (q8, f16). Der Fokus liegt auf realen Fehlern: verpasste Vorgaben, schlechtes Challenge-Verhalten, Überbau, UI-Beurteilung und verpasste lange Kontexte.

Wichtigste Ergebnisse

Die leistungsstärksten Profile in dieser Suite waren: bartowski-128k-f16, bartowski-128k-q8 und unsloth-128k-q8. Alle drei waren gleichauf in der Genauigkeit.
q8 KV Cache zeigte in dieser spezifischen Suite keine messbaren Genauigkeitsverluste.
Die Kontextgröße war wichtiger als f16-vs-q8 KV für diesen Arbeitsablauf. 65k-Profile versagten, wenn die Suite mehr als 65k Token erforderte.
unsloth-128k-f16 wurde geladen, geriet aber bei langen Kontexten auf einer RTX 5090 unter Speicher-/Durchsatzdruck.

Praktische Beobachtungen

Der Autor berichtet, dass Qwen extrem gut darin ist, stille Umgehungen, Überbau und Codierungsabkürzungen in Codex zu erkennen. Bei UI-bezogenen Aufgaben übernimmt Qwen die Führung im Design, während Codex implementiert. Die Rollen tauschen sich: Qwen hinterfragt den Plan, und der Mensch überprüft vor jedem Schritt.