Qwen Meetup Entwurf: Function Calling Harness 2 steigert CoT-Compliance von 9,91% auf 100% durch strukturierte Schemata

Ein Vortrag beim Qwen Meetup Korea (Ende Mai) präsentiert eine zweite Iteration des Funktionsaufruf-Harness-Musters. Der ursprüngliche Harness verbesserte qwen3-coder-next von 6,75% auf 100% bei der Backend-Codegenerierung mittels Typvalidierung und Compiler-Feedback. Dieses Update erweitert die gleiche Idee auf Bereiche ohne Compiler: Investitionsmemoranden, Rechtsgutachten und klinische Diagramme.
Schema-gesteuerte CoT-Compliance
Der Kernmechanismus ist ein TypeScript-Schema (mit typia-Tags), das die Modelllogik in eine erforderliche Form zwingt. Jedes Feld muss ausgefüllt sein, sonst wird die Einreichung abgelehnt. Beispielschema für ein Investitionsmemorandum:
import { tags } from "typia";
export interface IInvestmentMemo {
recommendation: "BUY" | "HOLD" | "SELL";
thesis: {
consensusView: string;
differentiatedView: string;
};
counterThesis: {
bearCase: string;
ourResponse: string;
};
// bull / base / bear alle erforderlich – verhindert Einreichung nur des Basisfalls
scenarios: {
bull: IScenario;
base: IScenario;
bear: IScenario;
};
// leere Arrays sind versiegelt
valuationDrivers: IValuationDriver[] & tags.MinItems<1>;
killConditions: IKillCondition[] & tags.MinItems<1>;
evidenceSources: IEvidenceSource[] & tags.MinItems<1>;
}
// Nur falsifizierbare Schwellenwerte – verhindert Freiform wie „Vertrauen in das Management“
export type IKillCondition =
| { type: "price_drawdown"; percentBelowEntry: number }
| { type: "metric_breach"; metric: string; below: number }
| { type: "milestone_miss"; expectedBy: string; what: string };
Das Schema wird dann validiert, indem es auf historische Investitionsfälle angewendet wird – die gleiche Idee wie Backtesting einer Handelsstrategie mit Marktdaten. Der Diff zeigt, welche vergangenen Calls das Schema richtig gehabt hätte und welche es verfehlt hat; man fügt hinzu, was fehlt.
Gemessene CoT-Compliance
Mit AutoBEs CoT-Funktion (nicht der Finanzinvestitionsanalyse selbst) hält qwen3.6-27b auf diesen CoT-Compliance-Schemata mit den Spitzenmodellen Schritt. Der Harness erhöht die Compliance von 9,91% auf 100%.
Für wen es gedacht ist
Entwickler, die KI-Agenten bauen, die strukturierte, überprüfbare Argumentation in Bereichen ohne automatische Korrektheitsprüfungen benötigen (z. B. Finanzen, Recht, Medizin).
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
Vorherige Präsentation: Teil 1
👀 Siehe auch

Claude Code Best Practice GitHub-Repository erreicht 5.000 Sterne
Ein GitHub-Repository namens 'claude-code-best-practice' hat 5.000 Sterne erreicht. Das Repository wurde mit Claude erstellt, um Best Practices, Tipps und Arbeitsabläufe sowohl vom Ersteller als auch von der Community zu dokumentieren.

MonClaw: Minimale OpenClaw-Implementierung mit OpenCode SDK
Eine leichtgewichtige Alternative zu OpenClaw, gebaut auf dem OpenCode SDK, mit Telegram- und WhatsApp-Unterstuetzung.

Fewshell: Ein selbst gehosteter SSH-Copilot, der Befehle nur mit menschlicher Genehmigung ausführt
Fewshell ist ein mobiler+Desktop-SSH-Copilot mit zwingender menschlicher Freigabe für jeden Befehl – es gibt keine Einstellung, um eine automatische Freigabe zu aktivieren. Entwickelt von einem ehemaligen Amazon-KI-Entwickler, der an KI-Sicherheitsforschung arbeitet.

Statespace: Erstellen Sie interaktive Web-Apps für OpenClaw-Agenten mit Markdown
Statespace ist ein kostenloses, quelloffenes Framework zum Erstellen und Teilen von KI-freundlichen Web-Apps, die OpenClaw-Agenten mit reinem Markdown navigieren und bedienen können. Es ermöglicht Ihnen, Werkzeuge, Komponenten und Anweisungen in Markdown-Dateien zu definieren, auf die Agenten über HTTP zugreifen.