Qwen Function Calling Harness 2: CoT-Compliance von 9,91% auf 100%

Ein Vortrag beim Qwen Meetup Korea (Ende Mai) präsentiert eine zweite Iteration des Funktionsaufruf-Harness-Musters. Der ursprüngliche Harness verbesserte qwen3-coder-next von 6,75% auf 100% bei der Backend-Codegenerierung mittels Typvalidierung und Compiler-Feedback. Dieses Update erweitert die gleiche Idee auf Bereiche ohne Compiler: Investitionsmemoranden, Rechtsgutachten und klinische Diagramme.

Schema-gesteuerte CoT-Compliance

Der Kernmechanismus ist ein TypeScript-Schema (mit typia-Tags), das die Modelllogik in eine erforderliche Form zwingt. Jedes Feld muss ausgefüllt sein, sonst wird die Einreichung abgelehnt. Beispielschema für ein Investitionsmemorandum:

import { tags } from "typia";

export interface IInvestmentMemo {
  recommendation: "BUY" | "HOLD" | "SELL";
  thesis: {
    consensusView: string;
    differentiatedView: string;
  };
  counterThesis: {
    bearCase: string;
    ourResponse: string;
  };
  // bull / base / bear alle erforderlich – verhindert Einreichung nur des Basisfalls
  scenarios: {
    bull: IScenario;
    base: IScenario;
    bear: IScenario;
  };
  // leere Arrays sind versiegelt
  valuationDrivers: IValuationDriver[] & tags.MinItems<1>;
  killConditions: IKillCondition[] & tags.MinItems<1>;
  evidenceSources: IEvidenceSource[] & tags.MinItems<1>;
}
// Nur falsifizierbare Schwellenwerte – verhindert Freiform wie „Vertrauen in das Management“
export type IKillCondition =
  | { type: "price_drawdown"; percentBelowEntry: number }
  | { type: "metric_breach"; metric: string; below: number }
  | { type: "milestone_miss"; expectedBy: string; what: string };

Das Schema wird dann validiert, indem es auf historische Investitionsfälle angewendet wird – die gleiche Idee wie Backtesting einer Handelsstrategie mit Marktdaten. Der Diff zeigt, welche vergangenen Calls das Schema richtig gehabt hätte und welche es verfehlt hat; man fügt hinzu, was fehlt.

Gemessene CoT-Compliance

Mit AutoBEs CoT-Funktion (nicht der Finanzinvestitionsanalyse selbst) hält qwen3.6-27b auf diesen CoT-Compliance-Schemata mit den Spitzenmodellen Schritt. Der Harness erhöht die Compliance von 9,91% auf 100%.

Für wen es gedacht ist

Entwickler, die KI-Agenten bauen, die strukturierte, überprüfbare Argumentation in Bereichen ohne automatische Korrektheitsprüfungen benötigen (z. B. Finanzen, Recht, Medizin).

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

Vorherige Präsentation: Teil 1

Qwen Meetup Entwurf: Function Calling Harness 2 steigert CoT-Compliance von 9,91% auf 100% durch strukturierte Schemata

Schema-gesteuerte CoT-Compliance

Gemessene CoT-Compliance

Für wen es gedacht ist

👀 Siehe auch

Claude Code Best Practice GitHub-Repository erreicht 5.000 Sterne

MonClaw: Minimale OpenClaw-Implementierung mit OpenCode SDK

Fewshell: Ein selbst gehosteter SSH-Copilot, der Befehle nur mit menschlicher Genehmigung ausführt

Statespace: Erstellen Sie interaktive Web-Apps für OpenClaw-Agenten mit Markdown