Qwen3.6-27b: Function Calling Harness 2 eleva cumplimiento CoT al 100%

Una charla en el Qwen Meetup Korea (finales de mayo) presenta una segunda iteración del patrón de harness de llamada a funciones. El harness original elevó a qwen3-coder-next del 6.75% al 100% en generación de código backend mediante validación de tipos y retroalimentación del compilador. Esta actualización extiende la misma idea a dominios que carecen de compilador: memorandos de inversión, opiniones legales e historias clínicas.

Cumplimiento de CoT basado en esquemas

El mecanismo central es un esquema TypeScript (usando etiquetas typia) que obliga al razonamiento del modelo a adoptar una forma predefinida. Cada campo debe completarse o el envío es rechazado. Ejemplo de esquema para un memorando de inversión:

import { tags } from "typia";

export interface IInvestmentMemo {
  recommendation: "BUY" | "HOLD" | "SELL";
  thesis: {
    consensusView: string;
    differentiatedView: string;
  };
  counterThesis: {
    bearCase: string;
    ourResponse: string;
  };
  // bull / base / bear todos obligatorios — impide enviar solo el caso base
  scenarios: {
    bull: IScenario;
    base: IScenario;
    bear: IScenario;
  };
  // arrays vacíos están prohibidos
  valuationDrivers: IValuationDriver[] & tags.MinItems<1>;
  killConditions: IKillCondition[] & tags.MinItems<1>;
  evidenceSources: IEvidenceSource[] & tags.MinItems<1>;
}
// Solo umbrales falseables — impide formulaciones libres como "confianza en la dirección"
export type IKillCondition =
  | { type: "price_drawdown"; percentBelowEntry: number }
  | { type: "metric_breach"; metric: string; below: number }
  | { type: "milestone_miss"; expectedBy: string; what: string };

Luego, el esquema se valida ejecutándolo sobre casos de inversión históricos — la misma idea que backtesting una estrategia de trading con datos de mercado. La comparación muestra qué llamadas pasadas el esquema habría acertado y cuáles habría fallado; se añade lo que falta.

Cumplimiento de CoT medido

Usando la función CoT de AutoBE (no el análisis de inversiones financieras en sí), qwen3.6-27b se mantiene al nivel de los modelos frontera en estos esquemas de cumplimiento de CoT. El harness eleva el cumplimiento del 9.91% al 100%.

Para quién es

Desarrolladores que construyen agentes de IA que necesitan razonamiento estructurado y verificable en dominios sin comprobaciones automáticas de corrección (por ejemplo, finanzas, derecho, medicina).

📖 Lea la fuente completa: r/LocalLLaMA

Presentación anterior: Parte 1

Título del Qwen Meetup: Function Calling Harness 2 aumenta el cumplimiento de CoT del 9.91% al 100% mediante esquemas estructurados

Cumplimiento de CoT basado en esquemas

Cumplimiento de CoT medido

Para quién es

👀 Ver también

Corbell: CLI de Código Abierto para Análisis de Arquitectura y Documentos de Diseño entre Repositorios

Configuración de OpenClaw en Máquina Virtual Ubuntu UTM con Acceso a API LLM y Ollama

Marco para Compañeros de IA en Slack, Operado Completamente desde Claude Code

agentcache: Biblioteca de Python para Caché de Prefijos de LLM Multi-Agente