Qwen 3.5 Tool Calling Fixes für agentische Anwendungen: Serverstatus und clientseitige Workarounds

✍️ OpenClawRadar📅 Veröffentlicht: 15. April 2026🔗 Source
Qwen 3.5 Tool Calling Fixes für agentische Anwendungen: Serverstatus und clientseitige Workarounds
Ad

Tool-Aufruf-Fehler in Qwen 3.5 Agentic Setups

Bei der Ausführung von Qwen 3.5-Modellen in agentenbasierten Umgebungen wie Coding-Agenten oder Funktionsaufruf-Schleifen können vier spezifische Fehler dazu führen, dass Tool-Aufrufe vollständig fehlschlagen.

Die vier Kernfehler

  • XML-Tool-Aufrufe werden als Klartext ausgegeben: Qwen 3.5 gibt Tool-Aufrufe im XML-Format aus (z.B. <function=bash><parameter=command>ls</parameter></function>). Wenn Server dies nicht parsen können – insbesondere wenn Text dem XML vorausgeht oder Thinking aktiviert ist – kommt der Tool-Aufruf als Rohtext mit finish_reason: stop an, sodass Ihr Agent ihn nie ausführt.
  • <think>-Tags gelangen in Text und vergiften den Kontext: llama.cpp erzwingt thinking=1 intern, unabhängig von enable_thinking: false, wodurch sich Tags über mehrere Runden ansammeln und Multi-Turn-Sitzungen zerstören.
  • Falsche finish_reason: Server senden "stop", wenn Tool-Aufrufe vorhanden sind, wodurch Agenten dies als endgültige Antwort behandeln.
  • Nicht standardmäßige finish_reason: Einige Server geben "eos_token", "" oder null zurück, was dazu führt, dass die meisten Frameworks beim unbekannten Wert abstürzen, bevor sie prüfen, ob Tool-Aufrufe existieren.
Ad

Serverstatus (April 2026)

Die Quelle bietet eine detaillierte Statustabelle für wichtige Inferenzserver:

  • LM Studio 0.4.9: Beste lokale Option für XML-Parsing (in v0.4.7 behoben), verbesserte Think-Leak-Behandlung, meist korrekte finish_reason.
  • vLLM 0.19.0: Funktioniert mit --tool-call-parser qwen3_coder Flag, Streaming-Fehler existieren, Think-Leak behoben, meist korrekte finish_reason.
  • Ollama 0.20.2: Verbessert seit der Behebung des ungeschlossenen </think>-Fehlers, immer noch unzuverlässig beim XML-Parsing, manchmal falsche finish_reason.
  • llama.cpp b8664: Parser existiert, scheitert aber bei aktiviertem Thinking, Think-Leak defekt, falsche finish_reason bei Parser-Fehlern.

Empfohlene Lösungen

Verwenden Sie Unsloth GGUFs anstelle von Standard-Qwen 3.5 Jinja-Vorlagen, die bekannte Probleme mit |items-Filter bei Tool-Argumenten haben. Unsloth liefert 21 Vorlagenkorrekturen mit.

Fügen Sie ein clientseitiges Sicherheitsnetz mit drei kleinen Funktionen hinzu, die das abfangen, was Server verpassen. Die Quelle bietet die erste Funktion:

import re, json, uuid

1. Parse Qwen XML tool calls from text content

def parse_qwen_xml_tools(text): results = [] for m in re.finditer(r'<function=([\w.-]+)>([\s\S]?)</function>', text): args = {} for p in re.finditer(r'<parameter=([\w.-]+)>([\s\S]?)</parameter>', m.group(2)): k, v = p.group(1).strip(), p.group(2).strip() try: v = json.loads(v) except: pass args[k] = v

Diese Funktion extrahiert Tool-Aufrufe aus Textinhalten, wenn Server das XML nicht richtig parsen können, und bietet einen Fallback-Mechanismus für agentenbasierte Workflows.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Dreischichtige Speicherarchitektur für persistente OpenClaw-Agentenkontexte
Anleitungen

Dreischichtige Speicherarchitektur für persistente OpenClaw-Agentenkontexte

Ein Entwickler hat ein 3-schichtiges Speichersystem auf der Infrastruktur von OpenClaw aufgebaut, um zu verhindern, dass Agenten jede Sitzung ohne Kontext beginnen. Die Architektur umfasst L1-Arbeitsbereichsdateien, die bei jedem Zugriff injiziert werden, L2-semantische Speichersuche und L3-Referenzdokumente, die bei Bedarf geöffnet werden.

OpenClawRadar
SOUL.md-Regeln verändern sich in langen KI-Agenten-Sitzungen und wie man das behebt
Anleitungen

SOUL.md-Regeln verändern sich in langen KI-Agenten-Sitzungen und wie man das behebt

SOUL.md-Regeln funktionieren perfekt für die ersten 10-15 Nachrichten, beginnen aber um Nachricht 20-30 herum abzudriften, da der Gesprächskontext die ursprüngliche Systemaufforderung überschreibt. Die Lösung besteht darin, /new aggressiver zu verwenden, um Sitzungen vor jeder neuen Aufgabe zurückzusetzen.

OpenClawRadar
Forschung zeigt: Effektives AI-Prompting ist kooperative Kommunikation, nicht Ingenieursarbeit
Anleitungen

Forschung zeigt: Effektives AI-Prompting ist kooperative Kommunikation, nicht Ingenieursarbeit

Peer-Review-Forschung zeigt, dass effektives Prompting mit KI-Modellen denselben kooperativen Kommunikationsprinzipien folgt, die Menschen nutzen, wobei Lakeras Analyse zeigt, dass die meisten Prompt-Fehler eher auf Unklarheiten als auf Modellbeschränkungen zurückzuführen sind.

OpenClawRadar
Kosteneffiziente OpenClaw-Multi-Agent-Einrichtung mithilfe von Abonnementmodellen
Anleitungen

Kosteneffiziente OpenClaw-Multi-Agent-Einrichtung mithilfe von Abonnementmodellen

Ein Reddit-Nutzer beschreibt, wie er alle OpenClaw-Multi-Agent-Operationen über bestehende $200 Anthropic Pro Max- und $200 ChatGPT OpenAI Codex-Abonnements statt über direkte API-Aufrufe abwickelt, wobei er günstigere Anthropic-Modelle für einfache Agenten und komplexere Modelle für andere verwendet.

OpenClawRadar