Harness de Chamada de Funções 2: Conformidade CoT de 9,91% para 100%

Uma palestra no Qwen Meetup Korea (final de maio) apresenta uma segunda iteração do padrão de harness de function-calling. O harness original elevou o qwen3-coder-next de 6,75% para 100% em codegen de backend usando validação de tipos e feedback do compilador. Esta atualização estende a mesma ideia para domínios sem compilador: memorandos de investimento, pareceres jurídicos e prontuários clínicos.

Conformidade CoT Orientada por Schema

O mecanismo central é um schema TypeScript (usando tags typia) que força o raciocínio do modelo para uma forma obrigatória. Todo campo deve ser preenchido ou a submissão é rejeitada. Exemplo de schema para um memorando de investimento:

import { tags } from "typia";

export interface IInvestmentMemo {
  recommendation: "BUY" | "HOLD" | "SELL";
  thesis: {
    consensusView: string;
    differentiatedView: string;
  };
  counterThesis: {
    bearCase: string;
    ourResponse: string;
  };
  // bull / base / bear todos obrigatórios — impede submeter apenas o caso base
  scenarios: {
    bull: IScenario;
    base: IScenario;
    bear: IScenario;
  };
  // arrays vazios são vedados
  valuationDrivers: IValuationDriver[] & tags.MinItems<1>;
  killConditions: IKillCondition[] & tags.MinItems<1>;
  evidenceSources: IEvidenceSource[] & tags.MinItems<1>;
}
// Apenas limites falseáveis — bloqueia formas livres como "confiança na gestão"
export type IKillCondition =
  | { type: "price_drawdown"; percentBelowEntry: number }
  | { type: "metric_breach"; metric: string; below: number }
  | { type: "milestone_miss"; expectedBy: string; what: string };

O schema é então validado executando-o em casos históricos de investimento — mesma ideia de backtestar uma estratégia de trading em dados de mercado. O diff mostra quais chamadas anteriores o schema teria acertado e quais errou; você adiciona o que está faltando.

Conformidade CoT Medida

Usando o recurso CoT do AutoBE (não a análise de investimento financeiro em si), o qwen3.6-27b acompanha os modelos de fronteira nesses schemas de conformidade CoT. O harness eleva a conformidade de 9,91% para 100%.

Para Quem é

Desenvolvedores que constroem agentes de IA que precisam de raciocínio estruturado e verificável em domínios sem verificações automáticas de correção (ex.: finanças, direito, medicina).

📖 Leia a fonte completa: r/LocalLLaMA

Apresentação anterior: Parte 1

Rascunho do Encontro Qwen: Harness de Chamada de Funções 2 Aumenta Conformidade CoT de 9,91% para 100% por meio de Esquemas Estruturados

Conformidade CoT Orientada por Schema

Conformidade CoT Medida

Para Quem é

👀 See Also

Plugin de Canal Matriz Claude Code Construído em Rust com Suporte E2EE

Ferramentas de Código Aberto Claude para Caça Automatizada a Recompensas por Bugs

Desenvolvedor compartilha mais de 10 servidores MCP para liquidação de agentes de IA, reputação e micropagamentos

O Proxy Sovr MCP adiciona uma camada de segurança para impedir comandos destrutivos do LLM.