Título del Qwen Meetup: Function Calling Harness 2 aumenta el cumplimiento de CoT del 9.91% al 100% mediante esquemas estructurados

Una charla en el Qwen Meetup Korea (finales de mayo) presenta una segunda iteración del patrón de harness de llamada a funciones. El harness original elevó a qwen3-coder-next del 6.75% al 100% en generación de código backend mediante validación de tipos y retroalimentación del compilador. Esta actualización extiende la misma idea a dominios que carecen de compilador: memorandos de inversión, opiniones legales e historias clínicas.
Cumplimiento de CoT basado en esquemas
El mecanismo central es un esquema TypeScript (usando etiquetas typia) que obliga al razonamiento del modelo a adoptar una forma predefinida. Cada campo debe completarse o el envío es rechazado. Ejemplo de esquema para un memorando de inversión:
import { tags } from "typia";
export interface IInvestmentMemo {
recommendation: "BUY" | "HOLD" | "SELL";
thesis: {
consensusView: string;
differentiatedView: string;
};
counterThesis: {
bearCase: string;
ourResponse: string;
};
// bull / base / bear todos obligatorios — impide enviar solo el caso base
scenarios: {
bull: IScenario;
base: IScenario;
bear: IScenario;
};
// arrays vacíos están prohibidos
valuationDrivers: IValuationDriver[] & tags.MinItems<1>;
killConditions: IKillCondition[] & tags.MinItems<1>;
evidenceSources: IEvidenceSource[] & tags.MinItems<1>;
}
// Solo umbrales falseables — impide formulaciones libres como "confianza en la dirección"
export type IKillCondition =
| { type: "price_drawdown"; percentBelowEntry: number }
| { type: "metric_breach"; metric: string; below: number }
| { type: "milestone_miss"; expectedBy: string; what: string };
Luego, el esquema se valida ejecutándolo sobre casos de inversión históricos — la misma idea que backtesting una estrategia de trading con datos de mercado. La comparación muestra qué llamadas pasadas el esquema habría acertado y cuáles habría fallado; se añade lo que falta.
Cumplimiento de CoT medido
Usando la función CoT de AutoBE (no el análisis de inversiones financieras en sí), qwen3.6-27b se mantiene al nivel de los modelos frontera en estos esquemas de cumplimiento de CoT. El harness eleva el cumplimiento del 9.91% al 100%.
Para quién es
Desarrolladores que construyen agentes de IA que necesitan razonamiento estructurado y verificable en dominios sin comprobaciones automáticas de corrección (por ejemplo, finanzas, derecho, medicina).
📖 Lea la fuente completa: r/LocalLLaMA
Presentación anterior: Parte 1
👀 Ver también

Corbell: CLI de Código Abierto para Análisis de Arquitectura y Documentos de Diseño entre Repositorios
Corbell es una herramienta CLI gratuita y de código abierto que escanea múltiples repositorios para construir un gráfico de arquitectura y generar documentación de diseño localmente. Funciona completamente sin conexión con Ollama o admite varios proveedores de LLM, y nunca envía código fuera de tu máquina.

Configuración de OpenClaw en Máquina Virtual Ubuntu UTM con Acceso a API LLM y Ollama
Un usuario configuró exitosamente OpenClaw en una máquina virtual Ubuntu aislada en un Mac M3, con acceso tanto a Ollama local en macOS como a APIs externas de LLM como Gemini, Claude y DeepSeek. Los archivos de configuración de ejemplo y las notas de solución de problemas están disponibles en GitHub.

Marco para Compañeros de IA en Slack, Operado Completamente desde Claude Code
ginnie-agents es un framework de código abierto para ejecutar agentes de IA autónomos con identidades de Slack, memoria de tres niveles, rutinas cron y horarios laborales, todo configurado y operado a través de Claude Code. Requiere Claude Code Max, Docker, Node 22+ y un workspace de Slack con permisos para crear apps.

agentcache: Biblioteca de Python para Caché de Prefijos de LLM Multi-Agente
agentcache es una biblioteca de Python que permite a los marcos de trabajo de LLM multiagente compartir prefijos de prompts en caché, logrando tasas de acierto de caché de hasta el 76% y reduciendo el tiempo de inferencia a más de la mitad en pruebas con GPT-4o-mini.