Creation OS: Локальная σ-затворная среда выполнения LLM, позволяющая моделям говорить «Я не знаю» вместо галлюцинаций

✍️ OpenClawRadar📅 Опубликовано: 30 апреля 2026 г.🔗 Source

Creation OS — это локальный AI-рантайм, который оборачивает локальные LLM с σ-затвором — измерительным слоем, оценивающим каждый вывод по нескольким каналам неопределенности и принимающим решение ACCEPT, RETHINK или ABSTAIN. Цель — позволить локальным моделям отказываться от ответов при неопределенности вместо галлюцинаций.

Ключевые возможности и установка

Поддерживает BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B и любую GGUF модель.
Работает на MacBook Air M4 8GB в качестве основного устройства — без облака, без API, ничего не покидает устройство.
Установка: git clone https://github.com/spektre-labs/creation-os, затем cd creation-os && bash scripts/quickstart.sh
Полный путь с локальными весами: ./scripts/install.sh, затем ./cos chat

Измерения σ-затвора

Затвор объединяет logprob, энтропию, перплексию, согласованность, семантическую σ, конформную τ, когерентность сессии и метакогнитивные каналы в единый вердикт:

ACCEPT → показать ответ
RETHINK → регенерировать
ABSTAIN → отказаться

Результаты бенчмарков

TruthfulQA (те же промпты и сиды):

  |Mode         |Accuracy|Coverage|  |-------------|--------|--------|  |BitNet only  |0.261   |0.136   |  |σ-pipeline   |0.336   |0.171   |

+28.7% точности за счет селективной регенерации на неопределенных строках. LSD probe AUROC: 0.982 на TruthfulQA holdout, 0.960 на TriviaQA. ECE: 0.043. Ошибочных+уверенных: 0. Конформная граница: P(ошибка | ACCEPT) ≤ α при α=0.80.

Отрицательные результаты задокументированы: σ не доминирует на HellaSwag или MMLU. Полные детали в CLAIM_DISCIPLINE.md.

Формальная верификация

Lean 4: 6/6 без sorry. Frama-C WP: 15/15 tier-1 разряжено.

Пример команды

./cos chat --once --prompt "Сколько будет 2+2?" --multi-sigma --verbose выдает вывод вида σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.

Интеграция с MCP

Запустите python3 -m cos.mcp_sigma_server чтобы предоставить σ для каждого ответа любому MCP-совместимому клиенту.

Ограничения

σ не является универсальным детектором галлюцинаций — наиболее силен на фактологических QA; длинные формы требуют дополнительной оценки. Качество локальной модели по-прежнему зависит от базовой модели.

📖 Читать полный источник: r/LocalLLaMA

👀 Смотрите также

Инструменты

engram v3.4.0 добавляет плагин Anthropic для поддержания работы Claude Code в условиях новых лимитов скорости

engram v3.4.0 представляет выделенный плагин Anthropic для Claude Code, добавляющий три навыка для управления затратами, запроса контекста и выявления ошибок. Установите с помощью `/plugin install engram` или `npm install -g engramx@latest`.

18 мая 2026 г., 14:15 UTC

OpenClawRadar

🦀

Инструменты

Игла: 26-миллионная модель вызова инструментов, построенная полностью без FFN

Needle — это модель вызова функций с 26 миллионами параметров без MLP, достигающая 6000 токенов/с на префилле и 1200 токенов/с на декоде на потребительских устройствах. Она превосходит FunctionGemma-270M, Qwen-0.6B, Granite-350M и LFM2.5-350M в одношаговом вызове инструментов.

12 мая 2026 г., 18:15 UTC

OpenClawRadar

Инструменты

Как я разработал навык для развертывания агентов OpenClaw в веб-приложениях - Закулисный взгляд

Изучите инновационное новое умение, разработанное для агентов OpenClaw, которое облегчает развертывание веб-приложений. Узнайте о его возможностях, преимуществах и о том, как оно преобразует производственные процессы.

20 апр. 2026 г., 17:38 UTC

OpenClawRadar

Инструменты

Открытое хранилище памяти ИИ для проектов на NodeJS

Mind Palace — это система хранения и извлечения памяти с открытым исходным кодом для NodeJS, которая сохраняет информацию между сессиями чата LLM. Она поддерживает основные LLM и векторные хранилища, автоматически извлекая и векторизуя суммированные воспоминания из взаимодействий.

18 апр. 2026 г., 16:45 UTC

OpenClawRadar