Qwen 미트업 초안: 함수 호출 하네스 2가 구조적 스키마를 통해 CoT 준수율을 9.91%에서 100%로 향상

Qwen Meetup Korea(5월 말)에서 발표된 강연은 함수 호출 하네스 패턴의 두 번째 버전을 소개합니다. 원래 하네스는 유형 검증과 컴파일러 피드백을 사용하여 백엔드 코드 생성에서 qwen3-coder-next의 성능을 6.75%에서 100%로 끌어올렸습니다. 이번 업데이트는 컴파일러가 없는 도메인(투자 메모, 법률 의견, 임상 차트)에 동일한 아이디어를 확장합니다.
스키마 기반 CoT 준수
핵심 메커니즘은 모델의 추론을 필수 형식으로 강제하는 TypeScript 스키마(typia 태그 사용)입니다. 모든 필드를 채워야 하며, 그렇지 않으면 제출이 거부됩니다. 투자 메모의 예시 스키마는 다음과 같습니다:
import { tags } from "typia";
export interface IInvestmentMemo {
recommendation: "BUY" | "HOLD" | "SELL";
thesis: {
consensusView: string;
differentiatedView: string;
};
counterThesis: {
bearCase: string;
ourResponse: string;
};
// bull / base / bear 모두 필수 — 기본 케이스만 제출하는 것을 차단
scenarios: {
bull: IScenario;
base: IScenario;
bear: IScenario;
};
// 빈 배열은 허용되지 않음
valuationDrivers: IValuationDriver[] & tags.MinItems<1>;
killConditions: IKillCondition[] & tags.MinItems<1>;
evidenceSources: IEvidenceSource[] & tags.MinItems<1>;
}
// 반증 가능한 임계값만 허용 — "경영진에 대한 신뢰"와 같은 자유 형식 차단
export type IKillCondition =
| { type: "price_drawdown"; percentBelowEntry: number }
| { type: "metric_breach"; metric: string; below: number }
| { type: "milestone_miss"; expectedBy: string; what: string };
그런 다음 스키마를 과거 투자 사례에 적용하여 검증합니다. 이는 시장 데이터에 트레이딩 전략을 백테스트하는 것과 동일한 개념입니다. diff는 스키마가 과거 결정 중 올바르게 예측한 것과 놓친 것을 보여주며, 누락된 부분을 추가합니다.
측정된 CoT 준수
AutoBE의 CoT 기능(금융 투자 분석 자체가 아님)을 사용하여 qwen3.6-27b는 이러한 CoT 준수 스키마에서 최첨단 모델과 경쟁합니다. 하네스는 준수율을 9.91%에서 100%로 향상시킵니다.
대상
자동 정확성 검사가 없는 도메인(예: 금융, 법률, 의료)에서 구조화되고 검증 가능한 추론이 필요한 AI 에이전트를 개발하는 개발자.
📖 전체 출처 읽기: r/LocalLLaMA
이전 발표: Part 1
👀 See Also

오프 그리드: 오프라인 AI 애플리케이션을 위한 휴대폰 하드웨어 활용
오프 그리드는 휴대폰의 하드웨어를 활용하여 텍스트 생성 및 음성 기록과 같은 오프라인 AI 작업을 수행하는 오픈 소스 앱입니다.

넥서스: 오픈클로를 위한 오픈 소스 에이전트 조정 레이어
NEXUS는 OpenClaw 위에 구축된 조정 계층으로, AI 에이전트들이 서로를 발견하고, 작업을 위임하며, 소액 결제를 처리할 수 있도록 합니다. 여기에는 에이전트 레지스트리, 역량 기반 발견 기능, 신뢰 점수 시스템이 포함되며, Google의 A2A 프로토콜과 Anthropic의 MCP를 사용합니다.

클로드 코드 스킬은 딥마인드 알레테이아와 앤트로픽 하네스 접근법을 결합한 것입니다.
Claude Code 스킬은 Planner→Generator→Evaluator→Reviser 파이프라인을 구현하여 DeepMind의 Aletheia 수학 연구 에이전트와 Anthropic의 다중 에이전트 코딩 아키텍처를 결합합니다. 여기에 '블라인드 사전 분석'을 추가했는데, 평가자가 후보 코드를 보기 전에 올바른 접근 방식에 대해 추론하는 방식입니다.

클로드 코드를 자율 엔지니어링 팀으로 변환하기
~/.claude/ 설정은 Claude Code를 자율적인 빌드 시스템으로 전환하여, 코드를 자동으로 생성하고 테스트합니다.