Qwen 3.5 Tool Calling Fixes für agentische Anwendungen: Serverstatus und clientseitige Workarounds

Tool-Aufruf-Fehler in Qwen 3.5 Agentic Setups
Bei der Ausführung von Qwen 3.5-Modellen in agentenbasierten Umgebungen wie Coding-Agenten oder Funktionsaufruf-Schleifen können vier spezifische Fehler dazu führen, dass Tool-Aufrufe vollständig fehlschlagen.
Die vier Kernfehler
- XML-Tool-Aufrufe werden als Klartext ausgegeben: Qwen 3.5 gibt Tool-Aufrufe im XML-Format aus (z.B. <function=bash><parameter=command>ls</parameter></function>). Wenn Server dies nicht parsen können – insbesondere wenn Text dem XML vorausgeht oder Thinking aktiviert ist – kommt der Tool-Aufruf als Rohtext mit finish_reason: stop an, sodass Ihr Agent ihn nie ausführt.
- <think>-Tags gelangen in Text und vergiften den Kontext: llama.cpp erzwingt thinking=1 intern, unabhängig von enable_thinking: false, wodurch sich Tags über mehrere Runden ansammeln und Multi-Turn-Sitzungen zerstören.
- Falsche finish_reason: Server senden "stop", wenn Tool-Aufrufe vorhanden sind, wodurch Agenten dies als endgültige Antwort behandeln.
- Nicht standardmäßige finish_reason: Einige Server geben "eos_token", "" oder null zurück, was dazu führt, dass die meisten Frameworks beim unbekannten Wert abstürzen, bevor sie prüfen, ob Tool-Aufrufe existieren.
Serverstatus (April 2026)
Die Quelle bietet eine detaillierte Statustabelle für wichtige Inferenzserver:
- LM Studio 0.4.9: Beste lokale Option für XML-Parsing (in v0.4.7 behoben), verbesserte Think-Leak-Behandlung, meist korrekte finish_reason.
- vLLM 0.19.0: Funktioniert mit --tool-call-parser qwen3_coder Flag, Streaming-Fehler existieren, Think-Leak behoben, meist korrekte finish_reason.
- Ollama 0.20.2: Verbessert seit der Behebung des ungeschlossenen </think>-Fehlers, immer noch unzuverlässig beim XML-Parsing, manchmal falsche finish_reason.
- llama.cpp b8664: Parser existiert, scheitert aber bei aktiviertem Thinking, Think-Leak defekt, falsche finish_reason bei Parser-Fehlern.
Empfohlene Lösungen
Verwenden Sie Unsloth GGUFs anstelle von Standard-Qwen 3.5 Jinja-Vorlagen, die bekannte Probleme mit |items-Filter bei Tool-Argumenten haben. Unsloth liefert 21 Vorlagenkorrekturen mit.
Fügen Sie ein clientseitiges Sicherheitsnetz mit drei kleinen Funktionen hinzu, die das abfangen, was Server verpassen. Die Quelle bietet die erste Funktion:
import re, json, uuid
1. Parse Qwen XML tool calls from text content
def parse_qwen_xml_tools(text):
results = []
for m in re.finditer(r'<function=([\w.-]+)>([\s\S]?)</function>', text):
args = {}
for p in re.finditer(r'<parameter=([\w.-]+)>([\s\S]?)</parameter>', m.group(2)):
k, v = p.group(1).strip(), p.group(2).strip()
try:
v = json.loads(v)
except:
pass
args[k] = v
Diese Funktion extrahiert Tool-Aufrufe aus Textinhalten, wenn Server das XML nicht richtig parsen können, und bietet einen Fallback-Mechanismus für agentenbasierte Workflows.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Dreischichtige Speicherarchitektur für persistente OpenClaw-Agentenkontexte
Ein Entwickler hat ein 3-schichtiges Speichersystem auf der Infrastruktur von OpenClaw aufgebaut, um zu verhindern, dass Agenten jede Sitzung ohne Kontext beginnen. Die Architektur umfasst L1-Arbeitsbereichsdateien, die bei jedem Zugriff injiziert werden, L2-semantische Speichersuche und L3-Referenzdokumente, die bei Bedarf geöffnet werden.

SOUL.md-Regeln verändern sich in langen KI-Agenten-Sitzungen und wie man das behebt
SOUL.md-Regeln funktionieren perfekt für die ersten 10-15 Nachrichten, beginnen aber um Nachricht 20-30 herum abzudriften, da der Gesprächskontext die ursprüngliche Systemaufforderung überschreibt. Die Lösung besteht darin, /new aggressiver zu verwenden, um Sitzungen vor jeder neuen Aufgabe zurückzusetzen.

Forschung zeigt: Effektives AI-Prompting ist kooperative Kommunikation, nicht Ingenieursarbeit
Peer-Review-Forschung zeigt, dass effektives Prompting mit KI-Modellen denselben kooperativen Kommunikationsprinzipien folgt, die Menschen nutzen, wobei Lakeras Analyse zeigt, dass die meisten Prompt-Fehler eher auf Unklarheiten als auf Modellbeschränkungen zurückzuführen sind.

Kosteneffiziente OpenClaw-Multi-Agent-Einrichtung mithilfe von Abonnementmodellen
Ein Reddit-Nutzer beschreibt, wie er alle OpenClaw-Multi-Agent-Operationen über bestehende $200 Anthropic Pro Max- und $200 ChatGPT OpenAI Codex-Abonnements statt über direkte API-Aufrufe abwickelt, wobei er günstigere Anthropic-Modelle für einfache Agenten und komplexere Modelle für andere verwendet.