Qwen Meetup Entwurf: Function Calling Harness 2 steigert CoT-Compliance von 9,91% auf 100% durch strukturierte Schemata

Ein Vortrag beim Qwen Meetup Korea (Ende Mai) präsentiert eine zweite Iteration des Funktionsaufruf-Harness-Musters. Der ursprüngliche Harness verbesserte qwen3-coder-next von 6,75% auf 100% bei der Backend-Codegenerierung mittels Typvalidierung und Compiler-Feedback. Dieses Update erweitert die gleiche Idee auf Bereiche ohne Compiler: Investitionsmemoranden, Rechtsgutachten und klinische Diagramme.
Schema-gesteuerte CoT-Compliance
Der Kernmechanismus ist ein TypeScript-Schema (mit typia-Tags), das die Modelllogik in eine erforderliche Form zwingt. Jedes Feld muss ausgefüllt sein, sonst wird die Einreichung abgelehnt. Beispielschema für ein Investitionsmemorandum:
import { tags } from "typia";
export interface IInvestmentMemo {
recommendation: "BUY" | "HOLD" | "SELL";
thesis: {
consensusView: string;
differentiatedView: string;
};
counterThesis: {
bearCase: string;
ourResponse: string;
};
// bull / base / bear alle erforderlich – verhindert Einreichung nur des Basisfalls
scenarios: {
bull: IScenario;
base: IScenario;
bear: IScenario;
};
// leere Arrays sind versiegelt
valuationDrivers: IValuationDriver[] & tags.MinItems<1>;
killConditions: IKillCondition[] & tags.MinItems<1>;
evidenceSources: IEvidenceSource[] & tags.MinItems<1>;
}
// Nur falsifizierbare Schwellenwerte – verhindert Freiform wie „Vertrauen in das Management“
export type IKillCondition =
| { type: "price_drawdown"; percentBelowEntry: number }
| { type: "metric_breach"; metric: string; below: number }
| { type: "milestone_miss"; expectedBy: string; what: string };
Das Schema wird dann validiert, indem es auf historische Investitionsfälle angewendet wird – die gleiche Idee wie Backtesting einer Handelsstrategie mit Marktdaten. Der Diff zeigt, welche vergangenen Calls das Schema richtig gehabt hätte und welche es verfehlt hat; man fügt hinzu, was fehlt.
Gemessene CoT-Compliance
Mit AutoBEs CoT-Funktion (nicht der Finanzinvestitionsanalyse selbst) hält qwen3.6-27b auf diesen CoT-Compliance-Schemata mit den Spitzenmodellen Schritt. Der Harness erhöht die Compliance von 9,91% auf 100%.
Für wen es gedacht ist
Entwickler, die KI-Agenten bauen, die strukturierte, überprüfbare Argumentation in Bereichen ohne automatische Korrektheitsprüfungen benötigen (z. B. Finanzen, Recht, Medizin).
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
Vorherige Präsentation: Teil 1
👀 Siehe auch

ETL-D MCP-Server: Deterministisches CSV-Parsing für Claude zur Vermeidung finanzieller Halluzinationen
Ein Entwickler hat ETL-D erstellt, einen Open-Source-MCP-Server für Claude Desktop, der CSVs in drei deterministischen Schichten verarbeitet, um Halluzinationen von Dezimalpunkten in Finanzdaten zu verhindern. Er verwendet Python-Parser für bekannte Formate, erreicht ~70ms Antwortzeiten mit 0 LLM-Aufrufen für 200 parallele Anfragen und nutzt LLMs nur als Fallback für hochgradig unvorhersehbaren Text.

Claudraband: Terminal-Wrapper für persistente Claude-Code-Sitzungen
Claudraband umhüllt die offizielle Claude Code TUI in einer kontrollierten Terminalumgebung, um wiederaufnehmbare Workflows, Fernsteuerung von Sitzungen über einen HTTP-Daemon und ACP-Server-Integration für alternative Frontends wie Zed oder Toad zu ermöglichen. Es erfordert Node.js/Bun, authentifiziertes Claude Code und tmux für erstklassige lokale Workflows.

ShareMyClaudeMD: Tool wandelt von Claude generierte Markdown-Dateien in teilbare gerenderte Seiten um
Ein Entwickler hat sharemyclaudemd.com erstellt, ein kostenloses Tool, das jede Markdown-Datei in eine live gerenderte Seite mit einer teilbaren URL und einem QR-Code umwandelt. Das Tool behebt die Schwierigkeiten beim Teilen von Claude-generierten Markdown-Dateien, bei denen Empfänger diese oft in einem bestimmten Editor öffnen oder auf GitHub hochladen müssen, nur um eine gerenderte Ansicht zu erhalten.

Karpathys Autoresearch auf Apple Neural Engine portiert für bessere Durchsatzleistung pro Watt
Ein Prototyp kombiniert Andrej Karpathys Autoresearch-Projekt mit reverse-engineerter Apple Neural Engine-Leistung und zielt auf einen besseren Durchsatz pro Watt im Vergleich zu offiziellen APIs ab. Das Projekt basiert auf bestehenden GitHub-Repositories und würdigt Beiträge mehrerer Entwickler.