Benchmark von lokalem Qwen 3.6 27B als Co-Agent für Codex-Validierung

Ein Entwickler auf r/LocalLLaMA hat ein lokales Qwen-Modell neben OpenAIs Codex als Validator und Herausforderer betrieben und eine kleine reproduzierbare Evaluierungs-Suite erstellt, um zu quantifizieren, welche GGUF-Quant-Profile für diese Rolle am besten geeignet sind. Der Arbeitsablauf: Codex übernimmt die Hauptarbeit im Repository; das lokale Qwen hinterfragt den Plan, prüft auf Überbau, verpasste harte Vorgaben, UI-/Designprobleme, falsche Annahmen und verpasste lange Kontexte. Der Autor überprüft jede Interaktion, bevor es weitergeht.
Aufbau der Evaluierungs-Suite
Die Suite testet Qwen 3.6 27B GGUF-Profile über llama.cpp, einschließlich Bartowski- und Unsloth-Varianten mit verschiedenen Kontextgrößen und KV-Cache-Formaten (q8, f16). Der Fokus liegt auf realen Fehlern: verpasste Vorgaben, schlechtes Challenge-Verhalten, Überbau, UI-Beurteilung und verpasste lange Kontexte.
Wichtigste Ergebnisse
- Die leistungsstärksten Profile in dieser Suite waren:
bartowski-128k-f16,bartowski-128k-q8undunsloth-128k-q8. Alle drei waren gleichauf in der Genauigkeit. - q8 KV Cache zeigte in dieser spezifischen Suite keine messbaren Genauigkeitsverluste.
- Die Kontextgröße war wichtiger als f16-vs-q8 KV für diesen Arbeitsablauf. 65k-Profile versagten, wenn die Suite mehr als 65k Token erforderte.
unsloth-128k-f16wurde geladen, geriet aber bei langen Kontexten auf einer RTX 5090 unter Speicher-/Durchsatzdruck.
Praktische Beobachtungen
Der Autor berichtet, dass Qwen extrem gut darin ist, stille Umgehungen, Überbau und Codierungsabkürzungen in Codex zu erkennen. Bei UI-bezogenen Aufgaben übernimmt Qwen die Führung im Design, während Codex implementiert. Die Rollen tauschen sich: Qwen hinterfragt den Plan, und der Mensch überprüft vor jedem Schritt.
Ressourcen
- Projektseite: https://robert896r1.github.io/qwen-realworld-accuracy-evals/
- Repository: https://github.com/robert896r1/qwen-realworld-accuracy-evals
📖 Lies die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Claudius: Open-Source Einbettbares KI-Chat-Widget für Claude
Claudius ist ein quelloffenes, selbst gehostetes Chat-Widget, das von Claude angetrieben wird und mit einem einzigen Skript-Tag auf jeder Website eingebettet werden kann. Es läuft auf Cloudflare Workers mit einem React-Frontend und bietet Funktionen wie benutzerdefinierte Systemaufforderungen, Ratenbegrenzung und Barrierefreiheitskonformität.

Interact MCP: Schnelleres Web-Browsing für Claude Code mit persistentem Chromium
Interact MCP ist ein Model Context Protocol-Tool, das einen persistenten Chromium-Browser im Prozess hält und die Browser-Aktionszeiten nach dem ersten Aufruf von 2-5 Sekunden auf 5-50 ms reduziert. Es verfügt über ein Ref-System für die Interaktion mit Elementen ohne CSS-Selektoren und umfasst 46 Tools für die Webautomatisierung.

MoltPoker.xyz: Spielgeld-Texas Hold'em für KI-Agenten
MoltPoker.xyz ist eine Plattform, auf der KI-Agenten über WebSocket-Verbindungen No-Limit Texas Hold'em gegeneinander spielen können, mit wiederabspielbaren Händen und sichtbarer Agentenlogik während laufender Spiele.

Kammer: KI-Agent für GPU-Infrastrukturverwaltung
Chamber ist ein KI-Agent, der GPU-Infrastruktur verwaltet, indem er Aufgaben wie die Bereitstellung von Clustern, die Diagnose fehlgeschlagener Jobs und die Verwaltung von Workloads übernimmt. Er bietet strukturierte Operationen mit Validierung und Rollback-Funktionen, nicht nur einfache Shell-Befehle.