Проект встречи Qwen: Harness 2 для вызова функций повышает соответствие CoT с 9,91% до 100% с помощью структурированных схем

✍️ OpenClawRadar📅 Опубликовано: 2 мая 2026 г.🔗 Source
Проект встречи Qwen: Harness 2 для вызова функций повышает соответствие CoT с 9,91% до 100% с помощью структурированных схем
Ad

Доклад на Qwen Meetup Korea (конец мая) представляет вторую итерацию паттерна функции вызова-привязки. Оригинальная привязка подняла qwen3-coder-next с 6.75% до 100% на генерации бэкенд-кода, используя проверку типов и обратную связь от компилятора. Это обновление расширяет ту же идею на домены без компилятора: инвестиционные меморандумы, юридические заключения и клинические карты.

Соответствие CoT на основе схем

Основной механизм — схема TypeScript (с использованием тегов typia), которая принуждает логику модели к требуемой форме. Каждое поле должно быть заполнено, иначе отправка отклоняется. Пример схемы для инвестиционного меморандума:

import { tags } from "typia";

export interface IInvestmentMemo { recommendation: "BUY" | "HOLD" | "SELL"; thesis: { consensusView: string; differentiatedView: string; }; counterThesis: { bearCase: string; ourResponse: string; }; // bull / base / bear все обязательны — блокирует отправку только базового сценария scenarios: { bull: IScenario; base: IScenario; bear: IScenario; }; // пустые массивы запрещены valuationDrivers: IValuationDriver[] & tags.MinItems<1>; killConditions: IKillCondition[] & tags.MinItems<1>; evidenceSources: IEvidenceSource[] & tags.MinItems<1>; }

// Только фальсифицируемые пороги — блокирует свободные формулировки вроде "вера в руководство" export type IKillCondition = | { type: "price_drawdown"; percentBelowEntry: number } | { type: "metric_breach"; metric: string; below: number } | { type: "milestone_miss"; expectedBy: string; what: string };

Затем схема проверяется на исторических инвестиционных кейсах — та же идея, что и бэктестинг торговой стратегии на рыночных данных. Разница показывает, какие прошлые решения схема бы приняла правильно, а какие пропустила; вы добавляете недостающее.

Ad

Измеренное соответствие CoT

Используя функцию CoT от AutoBE (не сам анализ финансовых инвестиций), qwen3.6-27b не отстаёт от передовых моделей на этих схемах соответствия CoT. Привязка повышает соответствие с 9.91% до 100%.

Для кого это

Для разработчиков, создающих AI-агентов, которым требуется структурированное, проверяемое рассуждение в доменах без автоматических проверок корректности (например, финансы, юриспруденция, медицина).

📖 Читать полный источник: r/LocalLLaMA

Предыдущая презентация: Часть 1

Ad

👀 Смотрите также

MLJAR Studio: Локальный AI-аналитик данных, создающий воспроизводимые блокноты
Инструменты

MLJAR Studio: Локальный AI-аналитик данных, создающий воспроизводимые блокноты

MLJAR Studio — это настольное приложение, которое преобразует вопросы на естественном языке в блокноты Python, выполняемые локально, с AutoML для табличных данных и поддержкой локальных LLM через Ollama.

OpenClawRadar
Настройка OpenClaw с арендой GPU на VAST.AI для неограниченных запросов в Ollama
Инструменты

Настройка OpenClaw с арендой GPU на VAST.AI для неограниченных запросов в Ollama

Пользователь описывает комбинирование аренды GPU на VAST.AI с Ollama и OpenClaw, чтобы обойти ограничения на промпты, но столкнулся с проблемами конфигурации, потребовавшими ручного редактирования JSON.

OpenClawRadar
OmniRecall Beta: Внедрение памяти на основе FAISS для облачных чатов с LLM.
Инструменты

OmniRecall Beta: Внедрение памяти на основе FAISS для облачных чатов с LLM.

OmniRecall — это локальный обход mitmproxy, который перехватывает трафик к облачным чат-интерфейсам, таким как DeepSeek, добавляя постоянный слой памяти с использованием индексации FAISS и sentence-transformers MiniLM-L6. В настоящее время находится в бета-версии, требует работы только на CPU и использует агрессивно ограничивающую лицензию с доступом к исходному коду.

OpenClawRadar
monk: Навык, заставляющий замолчать агентское повествование для экономии контекста и токенов
Инструменты

monk: Навык, заставляющий замолчать агентское повествование для экономии контекста и токенов

Пользователь Reddit опубликовал 'monk' — навык, который убирает повествование, преамбулы и постамбулы из ответов агента Claude, утверждая, что это сокращает выходные токены примерно на 54% за один раунд и увеличивает ёмкость контекста на 29–39% при 100 раундах.

OpenClawRadar