Harnais Appel Fonction Améliore Conformité CoT 100%

Un exposé au Qwen Meetup Korea (fin mai) présente une deuxième itération du modèle de harnais d'appel de fonctions. Le harnais original a fait passer qwen3-coder-next de 6,75% à 100% sur la génération de code backend en utilisant la validation de type et les retours du compilateur. Cette mise à jour étend la même idée aux domaines sans compilateur : notes d'investissement, avis juridiques et dossiers cliniques.

Conformité CoT pilotée par schéma

Le mécanisme central est un schéma TypeScript (utilisant les balises typia) qui force le raisonnement du modèle dans une forme requise. Chaque champ doit être rempli, sinon la soumission est rejetée. Exemple de schéma pour une note d'investissement :

import { tags } from "typia";

export interface IInvestmentMemo {
  recommendation: "BUY" | "HOLD" | "SELL";
  thesis: {
    consensusView: string;
    differentiatedView: string;
  };
  counterThesis: {
    bearCase: string;
    ourResponse: string;
  };
  // bull / base / bear tous requis — empêche de soumettre seulement le scénario de base
  scenarios: {
    bull: IScenario;
    base: IScenario;
    bear: IScenario;
  };
  // les tableaux vides sont interdits
  valuationDrivers: IValuationDriver[] & tags.MinItems<1>;
  killConditions: IKillCondition[] & tags.MinItems<1>;
  evidenceSources: IEvidenceSource[] & tags.MinItems<1>;
}
// Seuils falsifiables uniquement — empêche les formulations libres comme "confiance dans la direction"
export type IKillCondition =
  | { type: "price_drawdown"; percentBelowEntry: number }
  | { type: "metric_breach"; metric: string; below: number }
  | { type: "milestone_miss"; expectedBy: string; what: string };

Le schéma est ensuite validé en l'exécutant sur des cas d'investissement historiques — la même idée que le backtesting d'une stratégie de trading sur des données de marché. Le diff montre quels appels passés le schéma aurait réussis et lesquels il a manqués ; vous ajoutez ce qui manque.

Conformité CoT mesurée

En utilisant la fonctionnalité CoT d'AutoBE (et non l'analyse d'investissement financier elle-même), qwen3.6-27b suit le rythme des modèles frontaliers sur ces schémas de conformité CoT. Le harnais fait passer la conformité de 9,91% à 100%.

À qui cela s'adresse

Développeurs créant des agents IA qui ont besoin d'un raisonnement structuré et vérifiable dans des domaines sans contrôles automatiques de correction (par exemple, finance, droit, médecine).

📖 Lire la source complète : r/LocalLLaMA

Présentation précédente : Partie 1

Schema structuré : Qwen Meetup Draft - Le harnais d'appel de fonction améliore la conformité CoT de 9,91 % à 100 %

Conformité CoT pilotée par schéma

Conformité CoT mesurée

À qui cela s'adresse

👀 See Also

ClawCode : Migrer les agents OpenClaw vers Claude Code en tant que plugin

PACT : Un Cadre de Gouvernance Programmatique pour le Code Claude Après les Modèles de Défaillance des Agents

Les défaillances de boucle multi-agents sont des défaillances de conception organisationnelle, pas des défaillances d'instruction.

Plugin open-source Claude génère des accordeurs visuels interactifs avec prévisualisation en direct.