Benchmark von lokalem Qwen 3.6 27B als Co-Agent für Codex-Validierung

✍️ OpenClawRadar📅 Veröffentlicht: 4. Mai 2026🔗 Source
Benchmark von lokalem Qwen 3.6 27B als Co-Agent für Codex-Validierung
Ad

Ein Entwickler auf r/LocalLLaMA hat ein lokales Qwen-Modell neben OpenAIs Codex als Validator und Herausforderer betrieben und eine kleine reproduzierbare Evaluierungs-Suite erstellt, um zu quantifizieren, welche GGUF-Quant-Profile für diese Rolle am besten geeignet sind. Der Arbeitsablauf: Codex übernimmt die Hauptarbeit im Repository; das lokale Qwen hinterfragt den Plan, prüft auf Überbau, verpasste harte Vorgaben, UI-/Designprobleme, falsche Annahmen und verpasste lange Kontexte. Der Autor überprüft jede Interaktion, bevor es weitergeht.

Aufbau der Evaluierungs-Suite

Die Suite testet Qwen 3.6 27B GGUF-Profile über llama.cpp, einschließlich Bartowski- und Unsloth-Varianten mit verschiedenen Kontextgrößen und KV-Cache-Formaten (q8, f16). Der Fokus liegt auf realen Fehlern: verpasste Vorgaben, schlechtes Challenge-Verhalten, Überbau, UI-Beurteilung und verpasste lange Kontexte.

Wichtigste Ergebnisse

  • Die leistungsstärksten Profile in dieser Suite waren: bartowski-128k-f16, bartowski-128k-q8 und unsloth-128k-q8. Alle drei waren gleichauf in der Genauigkeit.
  • q8 KV Cache zeigte in dieser spezifischen Suite keine messbaren Genauigkeitsverluste.
  • Die Kontextgröße war wichtiger als f16-vs-q8 KV für diesen Arbeitsablauf. 65k-Profile versagten, wenn die Suite mehr als 65k Token erforderte.
  • unsloth-128k-f16 wurde geladen, geriet aber bei langen Kontexten auf einer RTX 5090 unter Speicher-/Durchsatzdruck.
Ad

Praktische Beobachtungen

Der Autor berichtet, dass Qwen extrem gut darin ist, stille Umgehungen, Überbau und Codierungsabkürzungen in Codex zu erkennen. Bei UI-bezogenen Aufgaben übernimmt Qwen die Führung im Design, während Codex implementiert. Die Rollen tauschen sich: Qwen hinterfragt den Plan, und der Mensch überprüft vor jedem Schritt.

Ressourcen

📖 Lies die vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch

Claudius: Open-Source Einbettbares KI-Chat-Widget für Claude
Werkzeuge

Claudius: Open-Source Einbettbares KI-Chat-Widget für Claude

Claudius ist ein quelloffenes, selbst gehostetes Chat-Widget, das von Claude angetrieben wird und mit einem einzigen Skript-Tag auf jeder Website eingebettet werden kann. Es läuft auf Cloudflare Workers mit einem React-Frontend und bietet Funktionen wie benutzerdefinierte Systemaufforderungen, Ratenbegrenzung und Barrierefreiheitskonformität.

OpenClawRadar
Interact MCP: Schnelleres Web-Browsing für Claude Code mit persistentem Chromium
Werkzeuge

Interact MCP: Schnelleres Web-Browsing für Claude Code mit persistentem Chromium

Interact MCP ist ein Model Context Protocol-Tool, das einen persistenten Chromium-Browser im Prozess hält und die Browser-Aktionszeiten nach dem ersten Aufruf von 2-5 Sekunden auf 5-50 ms reduziert. Es verfügt über ein Ref-System für die Interaktion mit Elementen ohne CSS-Selektoren und umfasst 46 Tools für die Webautomatisierung.

OpenClawRadar
MoltPoker.xyz: Spielgeld-Texas Hold'em für KI-Agenten
Werkzeuge

MoltPoker.xyz: Spielgeld-Texas Hold'em für KI-Agenten

MoltPoker.xyz ist eine Plattform, auf der KI-Agenten über WebSocket-Verbindungen No-Limit Texas Hold'em gegeneinander spielen können, mit wiederabspielbaren Händen und sichtbarer Agentenlogik während laufender Spiele.

OpenClawRadar
Kammer: KI-Agent für GPU-Infrastrukturverwaltung
Werkzeuge

Kammer: KI-Agent für GPU-Infrastrukturverwaltung

Chamber ist ein KI-Agent, der GPU-Infrastruktur verwaltet, indem er Aufgaben wie die Bereitstellung von Clustern, die Diagnose fehlgeschlagener Jobs und die Verwaltung von Workloads übernimmt. Er bietet strukturierte Operationen mit Validierung und Rollback-Funktionen, nicht nur einfache Shell-Befehle.

OpenClawRadar