Qwen Meetup Entwurf: Function Calling Harness 2 steigert CoT-Compliance von 9,91% auf 100% durch strukturierte Schemata

✍️ OpenClawRadar📅 Veröffentlicht: 2. Mai 2026🔗 Source
Qwen Meetup Entwurf: Function Calling Harness 2 steigert CoT-Compliance von 9,91% auf 100% durch strukturierte Schemata
Ad

Ein Vortrag beim Qwen Meetup Korea (Ende Mai) präsentiert eine zweite Iteration des Funktionsaufruf-Harness-Musters. Der ursprüngliche Harness verbesserte qwen3-coder-next von 6,75% auf 100% bei der Backend-Codegenerierung mittels Typvalidierung und Compiler-Feedback. Dieses Update erweitert die gleiche Idee auf Bereiche ohne Compiler: Investitionsmemoranden, Rechtsgutachten und klinische Diagramme.

Schema-gesteuerte CoT-Compliance

Der Kernmechanismus ist ein TypeScript-Schema (mit typia-Tags), das die Modelllogik in eine erforderliche Form zwingt. Jedes Feld muss ausgefüllt sein, sonst wird die Einreichung abgelehnt. Beispielschema für ein Investitionsmemorandum:

import { tags } from "typia";

export interface IInvestmentMemo { recommendation: "BUY" | "HOLD" | "SELL"; thesis: { consensusView: string; differentiatedView: string; }; counterThesis: { bearCase: string; ourResponse: string; }; // bull / base / bear alle erforderlich – verhindert Einreichung nur des Basisfalls scenarios: { bull: IScenario; base: IScenario; bear: IScenario; }; // leere Arrays sind versiegelt valuationDrivers: IValuationDriver[] & tags.MinItems<1>; killConditions: IKillCondition[] & tags.MinItems<1>; evidenceSources: IEvidenceSource[] & tags.MinItems<1>; }

// Nur falsifizierbare Schwellenwerte – verhindert Freiform wie „Vertrauen in das Management“ export type IKillCondition = | { type: "price_drawdown"; percentBelowEntry: number } | { type: "metric_breach"; metric: string; below: number } | { type: "milestone_miss"; expectedBy: string; what: string };

Das Schema wird dann validiert, indem es auf historische Investitionsfälle angewendet wird – die gleiche Idee wie Backtesting einer Handelsstrategie mit Marktdaten. Der Diff zeigt, welche vergangenen Calls das Schema richtig gehabt hätte und welche es verfehlt hat; man fügt hinzu, was fehlt.

Ad

Gemessene CoT-Compliance

Mit AutoBEs CoT-Funktion (nicht der Finanzinvestitionsanalyse selbst) hält qwen3.6-27b auf diesen CoT-Compliance-Schemata mit den Spitzenmodellen Schritt. Der Harness erhöht die Compliance von 9,91% auf 100%.

Für wen es gedacht ist

Entwickler, die KI-Agenten bauen, die strukturierte, überprüfbare Argumentation in Bereichen ohne automatische Korrektheitsprüfungen benötigen (z. B. Finanzen, Recht, Medizin).

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

Vorherige Präsentation: Teil 1

Ad

👀 Siehe auch