Qwen3.6-27B als lokale Reasoning-Schicht: Ergebnisse eines 2-wöchigen Multi-Agenten-Tests

Ein Entwickler ersetzte Claude durch Qwen3.6-27B in einem Multi-Agenten-Orchestrator für zwei Wochen, der vollständig auf einer einzelnen RTX 3090 lief. Das Ziel war klar: testen, ob ein lokales Modell als Reasoning-Schicht – Lead/Manager/Sub-Agent-Schleife – in realen Codierungs-Workflows dienen kann. Die Ergebnisse liefern harte Zahlen für alle, die Cloud-Kosten senken möchten.
Aufbau und Basislinie
- Hardware: RTX 3090, 24 GB VRAM
- Modell: Qwen3.6-27B mit Q6_K-Quantisierung (~22 GB on-GPU), effektiver Kontext 32k
- Inferenz-Engine: Ollama
- Orchestrator: Multi-Agenten-System mit strukturierten JSON-Plänen, Planbestätigungsmodal und automatischem Überprüfungsdurchlauf nach Sub-Agent-Abschluss
- Workload: 47 mehrstufige Codierungs-Workflows über zwei reale Repositories
Was funktionierte (Die Reasoning-Schicht)
Planerstellung. Qwen3.6 erstellte mehrstufige Pläne ungefähr so gut wie Claude bei diesen Aufgaben. Etwas konservativer – weniger unerwünschte Refactoring-Vorschläge – aber kohärent und schemakonform ~95% der Zeit nach Prompt-Anpassungen. Die restlichen 5% waren mit einem einzigen erneuten Prompt behebbar.
Extraktion von Fakten. Mem0-artige Faktenextraktion alle 6 Durchläufe funktionierte einwandfrei. Qwen extrahierte dieselben Fakten wie Claude (z.B. "Benutzer bevorzugt keine Kommentare, es sei denn, sie erklären ein 'Warum'") und speicherte sie sauber in Qdrant.
Automatische Überprüfung der Sub-Agent-Ausgabe. Eine zweite Qwen-Instanz, die den Code der ersten überprüfte, erkannte ~60% der Fehler, die Claudes Überprüfung bei derselben Menge erkannte. Weniger aggressiv, dennoch nützlich und kostenlos.
Wo es scheiterte
Zuverlässigkeit von Tool-Aufrufen. Qwen3.6s JSON-Tool-Call-Ausgabe hatte eine ~12% Formatfehlerrate bei 47 Aufgaben. Claude lag bei ~0,5% bei derselben Arbeitslast. Fehler waren kein fehlerhaftes JSON – es waren falsche Feldnamen, falsche Typen, halluzinierte Tool-Signaturen. Die Verwendung von Outlines oder Strict-Output-Modus reduzierte Fehler, eliminierte sie jedoch nicht.
Drift im langen Kontext. Nach ~14k Token akkumulierten Sitzungskontexts begann Qwen, Entscheidungen falsch zu erinnern (z.B. "Sie sagten, verwenden Sie Postgres", wenn das Gegenteil gesagt wurde). Effektive praktische Grenze liegt bei ~12k Token, dann aggressiv zusammenfassen und zurücksetzen.
Behandlung von Kaskadenfehlern. Wenn ein Sub-Agent scheiterte, bemerkte Claudes Planer dies normalerweise und plante neu. Qwen generierte manchmal nachgelagerte Schritte unter der Annahme, dass der Sub-Agent erfolgreich war. Drei kaskadierende Halluzinationen in 47 Läufen – nicht katastrophal mit Plan-Gating, aber ohne wäre es das.
Praktische Auswirkungen
Die Einschätzung des Entwicklers: "Qwen3.6-27B ist eine brauchbare Reasoning-Schicht für lokale Multi-Agenten-Systeme heute. Es ist KEINE brauchbare Ausführungsschicht." Wenn Sie reine Lokalagenten bauen, benötigen Sie:
- Strukturierte Ausgabeerzwingung an der Tool-Call-Grenze (Outlines, lm-format-enforcer oder Grammar-Modus Ihrer Inferenz-Engine)
- Planbestätigungs-Gating, sodass die 12% Formatfehler nie tatsächliche Dateischreibvorgänge erreichen
- Neuplanung bei Fehlschlag-Logik – das Modell selbst kann nicht mit Kaskadenfehlern umgehen
Die 12% Tool-Call-Fehlerlücke ist die Kennzahl, die es zu beobachten gilt. Sobald Qwen3.6 oder das nächste lokale Modell ~2% bei dieser Kennzahl erreicht, schwächt sich das Argument für Cloud-Reasoning in Agentenschleifen erheblich ab.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

AgentCrawl-Update fügt wichtige Crawler-Funktionen und -Verbesserungen hinzu.
Die neueste Aktualisierung von AgentCrawl bringt Funktionen wie die Einhaltung von robots.txt, Disk-Cache, fortsetzbare Crawls und strukturierte Metadatenaus extraction mit sich, wodurch es zu einem robusteren, produktionsbereiten Tool wird.

Wie KI-Assistenten Webseiten abrufen: Nginx-Loganalyse von ChatGPT, Claude, Gemini und anderen
Ein Entwickler testete fünf große KI-Assistenten, indem er sie mit eindeutigen URLs ansprach und Nginx-Logs überwachte, wodurch unterschiedliche Abrufmuster aufgedeckt wurden: ChatGPT, Claude und Perplexity verwenden dedizierte User-Agents, während Gemini aus seinem Index antwortete, ohne eine Abfrage durchzuführen.

MCP Memory Gateway: Ein MCP-Server für persistenten Speicher in Claude Code
Ein Entwickler hat einen MCP-Server namens MCP Memory Gateway erstellt, wobei Claude Code als primäres Entwicklungswerkzeug diente. Er bietet Claude Code persistenten Speicher über Sitzungen hinweg durch Feedback-Erfassung, Präventionsregeln und Kontextinjektion.

TeamOut KI-Agent für die Planung von Firmenretreats
TeamOut hat einen KI-Agenten gestartet, der Firmenveranstaltungen per Konversation plant und dabei die Beschaffung von Veranstaltungsorten, die Koordination von Anbietern, die Schätzung von Flugkosten, die Erstellung von Reiseplänen und das Projektmanagement übernimmt. Das System nutzt mehrere LLMs und spezialisierte Tools, um die Planung als ein zustandsbehaftetes Koordinationsproblem zu verwalten.