Título del Qwen Meetup: Function Calling Harness 2 aumenta el cumplimiento de CoT del 9.91% al 100% mediante esquemas estructurados

✍️ OpenClawRadar📅 Publicado: 2 de mayo de 2026🔗 Source
Título del Qwen Meetup: Function Calling Harness 2 aumenta el cumplimiento de CoT del 9.91% al 100% mediante esquemas estructurados
Ad

Una charla en el Qwen Meetup Korea (finales de mayo) presenta una segunda iteración del patrón de harness de llamada a funciones. El harness original elevó a qwen3-coder-next del 6.75% al 100% en generación de código backend mediante validación de tipos y retroalimentación del compilador. Esta actualización extiende la misma idea a dominios que carecen de compilador: memorandos de inversión, opiniones legales e historias clínicas.

Cumplimiento de CoT basado en esquemas

El mecanismo central es un esquema TypeScript (usando etiquetas typia) que obliga al razonamiento del modelo a adoptar una forma predefinida. Cada campo debe completarse o el envío es rechazado. Ejemplo de esquema para un memorando de inversión:

import { tags } from "typia";

export interface IInvestmentMemo { recommendation: "BUY" | "HOLD" | "SELL"; thesis: { consensusView: string; differentiatedView: string; }; counterThesis: { bearCase: string; ourResponse: string; }; // bull / base / bear todos obligatorios — impide enviar solo el caso base scenarios: { bull: IScenario; base: IScenario; bear: IScenario; }; // arrays vacíos están prohibidos valuationDrivers: IValuationDriver[] & tags.MinItems<1>; killConditions: IKillCondition[] & tags.MinItems<1>; evidenceSources: IEvidenceSource[] & tags.MinItems<1>; }

// Solo umbrales falseables — impide formulaciones libres como "confianza en la dirección" export type IKillCondition = | { type: "price_drawdown"; percentBelowEntry: number } | { type: "metric_breach"; metric: string; below: number } | { type: "milestone_miss"; expectedBy: string; what: string };

Luego, el esquema se valida ejecutándolo sobre casos de inversión históricos — la misma idea que backtesting una estrategia de trading con datos de mercado. La comparación muestra qué llamadas pasadas el esquema habría acertado y cuáles habría fallado; se añade lo que falta.

Ad

Cumplimiento de CoT medido

Usando la función CoT de AutoBE (no el análisis de inversiones financieras en sí), qwen3.6-27b se mantiene al nivel de los modelos frontera en estos esquemas de cumplimiento de CoT. El harness eleva el cumplimiento del 9.91% al 100%.

Para quién es

Desarrolladores que construyen agentes de IA que necesitan razonamiento estructurado y verificable en dominios sin comprobaciones automáticas de corrección (por ejemplo, finanzas, derecho, medicina).

📖 Lea la fuente completa: r/LocalLLaMA

Presentación anterior: Parte 1

Ad

👀 Ver también

Corbell: CLI de Código Abierto para Análisis de Arquitectura y Documentos de Diseño entre Repositorios
Herramientas

Corbell: CLI de Código Abierto para Análisis de Arquitectura y Documentos de Diseño entre Repositorios

Corbell es una herramienta CLI gratuita y de código abierto que escanea múltiples repositorios para construir un gráfico de arquitectura y generar documentación de diseño localmente. Funciona completamente sin conexión con Ollama o admite varios proveedores de LLM, y nunca envía código fuera de tu máquina.

OpenClawRadar
Configuración de OpenClaw en Máquina Virtual Ubuntu UTM con Acceso a API LLM y Ollama
Herramientas

Configuración de OpenClaw en Máquina Virtual Ubuntu UTM con Acceso a API LLM y Ollama

Un usuario configuró exitosamente OpenClaw en una máquina virtual Ubuntu aislada en un Mac M3, con acceso tanto a Ollama local en macOS como a APIs externas de LLM como Gemini, Claude y DeepSeek. Los archivos de configuración de ejemplo y las notas de solución de problemas están disponibles en GitHub.

OpenClawRadar
Marco para Compañeros de IA en Slack, Operado Completamente desde Claude Code
Herramientas

Marco para Compañeros de IA en Slack, Operado Completamente desde Claude Code

ginnie-agents es un framework de código abierto para ejecutar agentes de IA autónomos con identidades de Slack, memoria de tres niveles, rutinas cron y horarios laborales, todo configurado y operado a través de Claude Code. Requiere Claude Code Max, Docker, Node 22+ y un workspace de Slack con permisos para crear apps.

OpenClawRadar
agentcache: Biblioteca de Python para Caché de Prefijos de LLM Multi-Agente
Herramientas

agentcache: Biblioteca de Python para Caché de Prefijos de LLM Multi-Agente

agentcache es una biblioteca de Python que permite a los marcos de trabajo de LLM multiagente compartir prefijos de prompts en caché, logrando tasas de acierto de caché de hasta el 76% y reduciendo el tiempo de inferencia a más de la mitad en pruebas con GPT-4o-mini.

OpenClawRadar