Qwen3.x-Modelle schlagen in OpenClaw aufgrund eines Formatfehlers bei der Streaming-Ausgabe stillschweigend fehl

Das Problem
Wenn Qwen3.x-Modelle lokal mit OpenClaw im Streaming-Modus ausgeführt werden, geben die Modelle ihre Antworten im reasoning-Feld statt im erwarteten content-Feld aus. OpenClaw interpretiert leere Inhalte als Fehler und greift stillschweigend auf das nächste Modell in Ihrer Fallback-Kette zu, ohne einen Fehler auszulösen. Dies führt dazu, dass das falsche Modell Anfragen beantwortet.
Die Lösung
Die Lösung besteht darin, einen kleinen Proxy zwischen OpenClaw und Ollama zu implementieren. Dieser Proxy erfüllt zwei Hauptfunktionen:
- Übersetzt das API-Format zwischen den beiden Systemen
- Fügt
think: falsean der entsprechenden Stelle ein
Bei korrekter Konfiguration bestehen Qwen3.x-Modelle die vollständige Tool-Call-Auswertung mit perfekten Ergebnissen (15/15), einschließlich Ausführung, Dateilesen, Websuche, Sheets-Integration, Slack-Integration und Speicheroperationen.
Implementierungsdetails
Die Quelle bietet einen umfassenden Bericht, der Folgendes abdeckt:
- Anleitung zur Proxy-Einrichtung
- Sechs spezifische Konfigurationseinstellungen, die alle korrekt sein müssen
- Überwachungsansätze
- Was nicht funktioniert (häufige Fallstricke, die zu vermeiden sind)
Die vollständigen technischen Details, einschließlich Code-Ausschnitten und Konfigurationsbeispielen, sind im verlinkten Gist verfügbar.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

OpenClaw-Einrichtungsanleitung basierend auf Reddit-Analyse: Hardware, Kosten, Speicher und Sicherheitspraktiken
Ein Reddit-Nutzer analysierte häufige OpenClaw-Fehler und erstellte eine Einrichtungsanleitung, die Hardware-Anforderungen, Kostenoptimierung auf 10 $/Monat, Speicherverwaltung mit MEMORY.md-Dateien und Sicherheitspraktiken zur Verhinderung von Prompt-Injection-Angriffen abdeckt.

Maßgeschneiderter 4x RTX PRO 6000 Server vs Dell GB300: Entscheidung für 30 feinabgestimmte Pipelines
Ein detaillierter Vergleich zweier On-Premises-Architekturen für den Betrieb von etwa 30 feinabgestimmten Produktions-Pipelines: ein kundenspezifischer 4U-Server mit 4-8x RTX PRO 6000 Blackwell (je 96 GB) vs. NVIDIA GB300 Grace Blackwell Appliance mit 252 GB HBM3e + 496 GB Unified Memory.

Aufbau eines vollständigen BI-Systems mit Claude Code und Metabase für unter 50 USD/Monat
Ein Reddit-Nutzer hat mit Claude Code, BigQuery und selbst gehostetem Metabase ein komplettes BI-System aufgebaut – und damit 15.000-$-Angebote von Experten durch 3 Tage Arbeit und 30 $ monatliche Cloud-Kosten ersetzt.

Lokales Ausführen von OmniCoder-9B mit llama.cpp-Konfigurationsdetails
Ein Entwickler erzielte einen durchschnittlichen HumanEval-Score von 96,7 % mit OmniCoder-9B auf Mittelklasse-Hardware unter Verwendung spezifischer llama.cpp-Flags, einschließlich --reasoning-budget 0, um die Kettenfolge-Ausgabe zu deaktivieren. Das Setup verwendete ein Q6_K-quantisiertes Modell, das auf einer RTX 3080 mit 10 GB VRAM lief.