Проект встречи Qwen: Harness 2 для вызова функций повышает соответствие CoT с 9,91% до 100% с помощью структурированных схем

Доклад на Qwen Meetup Korea (конец мая) представляет вторую итерацию паттерна функции вызова-привязки. Оригинальная привязка подняла qwen3-coder-next с 6.75% до 100% на генерации бэкенд-кода, используя проверку типов и обратную связь от компилятора. Это обновление расширяет ту же идею на домены без компилятора: инвестиционные меморандумы, юридические заключения и клинические карты.
Соответствие CoT на основе схем
Основной механизм — схема TypeScript (с использованием тегов typia), которая принуждает логику модели к требуемой форме. Каждое поле должно быть заполнено, иначе отправка отклоняется. Пример схемы для инвестиционного меморандума:
import { tags } from "typia";
export interface IInvestmentMemo {
recommendation: "BUY" | "HOLD" | "SELL";
thesis: {
consensusView: string;
differentiatedView: string;
};
counterThesis: {
bearCase: string;
ourResponse: string;
};
// bull / base / bear все обязательны — блокирует отправку только базового сценария
scenarios: {
bull: IScenario;
base: IScenario;
bear: IScenario;
};
// пустые массивы запрещены
valuationDrivers: IValuationDriver[] & tags.MinItems<1>;
killConditions: IKillCondition[] & tags.MinItems<1>;
evidenceSources: IEvidenceSource[] & tags.MinItems<1>;
}
// Только фальсифицируемые пороги — блокирует свободные формулировки вроде "вера в руководство"
export type IKillCondition =
| { type: "price_drawdown"; percentBelowEntry: number }
| { type: "metric_breach"; metric: string; below: number }
| { type: "milestone_miss"; expectedBy: string; what: string };
Затем схема проверяется на исторических инвестиционных кейсах — та же идея, что и бэктестинг торговой стратегии на рыночных данных. Разница показывает, какие прошлые решения схема бы приняла правильно, а какие пропустила; вы добавляете недостающее.
Измеренное соответствие CoT
Используя функцию CoT от AutoBE (не сам анализ финансовых инвестиций), qwen3.6-27b не отстаёт от передовых моделей на этих схемах соответствия CoT. Привязка повышает соответствие с 9.91% до 100%.
Для кого это
Для разработчиков, создающих AI-агентов, которым требуется структурированное, проверяемое рассуждение в доменах без автоматических проверок корректности (например, финансы, юриспруденция, медицина).
📖 Читать полный источник: r/LocalLLaMA
Предыдущая презентация: Часть 1
👀 Смотрите также

MLJAR Studio: Локальный AI-аналитик данных, создающий воспроизводимые блокноты
MLJAR Studio — это настольное приложение, которое преобразует вопросы на естественном языке в блокноты Python, выполняемые локально, с AutoML для табличных данных и поддержкой локальных LLM через Ollama.

Настройка OpenClaw с арендой GPU на VAST.AI для неограниченных запросов в Ollama
Пользователь описывает комбинирование аренды GPU на VAST.AI с Ollama и OpenClaw, чтобы обойти ограничения на промпты, но столкнулся с проблемами конфигурации, потребовавшими ручного редактирования JSON.

OmniRecall Beta: Внедрение памяти на основе FAISS для облачных чатов с LLM.
OmniRecall — это локальный обход mitmproxy, который перехватывает трафик к облачным чат-интерфейсам, таким как DeepSeek, добавляя постоянный слой памяти с использованием индексации FAISS и sentence-transformers MiniLM-L6. В настоящее время находится в бета-версии, требует работы только на CPU и использует агрессивно ограничивающую лицензию с доступом к исходному коду.

monk: Навык, заставляющий замолчать агентское повествование для экономии контекста и токенов
Пользователь Reddit опубликовал 'monk' — навык, который убирает повествование, преамбулы и постамбулы из ответов агента Claude, утверждая, что это сокращает выходные токены примерно на 54% за один раунд и увеличивает ёмкость контекста на 29–39% при 100 раундах.