Формат WCY сокращает нагрузку на токены LLM на 50-71%

WCY (Watch → Compute → Yield) — это построчный формат, разработанный для сокращения накладных расходов на токены в ИИ и предоставления структурных маркеров для обозначения неопределённости в рассуждениях. Он заменяет скобки, кавычки и запятые JSON на синтаксис с одним маркером на строку.

Бенчмарки сокращения токенов

По результатам тестирования на 10–500 строках и типах обмена MCP:

Структурированные данные против JSON: сокращение токенов на 50–54%
Схемы вызовов инструментов: сокращение на 65–71%
Полный обмен по протоколу MCP: сокращение на 61%
Токены вывода мультиагентных систем: сокращение на 40%

Тонкая настройка не требуется — трёх примеров достаточно, чтобы модели переключились на этот формат. Метрика parse_r повышается с 0,29 до 1,00 на сложных задачах при таком подходе.

Маркер ? для неопределённости

WCY вводит структурный способ для ИИ отмечать то, что им неизвестно в процессе рассуждений. Слот ? (void-B) позволяет моделям указывать неопределённость прямо в тексте:

: ?diagnosis hint=labs+imaging conf_range=0.4..0.8
    order CT_scan reason=from=3 . CT_result mass_in_RUL size=2.3cm : diagnosis=adenocarcinoma conf=0.82 from=3,5

Тестирование показало:

Без примеров: модели используют маркеры ? в 0% случаев, даже при наличии спецификации в промпте
С 3 примерами: 5,4 маркера на трассу, 67–97% разрешено
48 трасс в 8 доменах: 95% разрешено, 100% проход контрольного качества

Слот from= отслеживает, какие наблюдения поддерживают какие выводы прямо в тексте, что помогает выявлять цепочки галлюцинаций.

Доступные ресурсы

wcy_parser.py — чистый Python, без внешних зависимостей
wcy_eval.py — оценка по 3 осям (Структурная / Смысловая / Происхождение)
60 трасс рассуждений с циклами void-B (лицензия CC BY 4.0, для экспериментов с тонкой настройкой)
Скрипт конвейера для генерации дополнительных трасс

Пока протестировано только на Claude Sonnet. Автору интересно, сохранится ли результат 0% → 5,4 маркера на Qwen, Llama и Mistral с теми же примерами.

📖 Read the full source: r/LocalLLaMA

Формат WCY сокращает нагрузку на токены LLM на 50–71% и добавляет структурные маркеры «Я не знаю».

Бенчмарки сокращения токенов

Маркер ? для неопределённости

Доступные ресурсы

👀 Смотрите также

Сервер Savecraft MCP предоставляет Клоду точные данные по Magic: The Gathering.

Оверлей на рабочем столе в реальном времени для мониторинга лимитов использования кода Claude

Тесты MemAware Benchmark проверяют память ИИ за пределами поиска по ключевым словам.

Эффективное управление токенами с помощью открытых MCP-серверов: Pare