Creation OS: Локальная σ-затворная среда выполнения LLM, позволяющая моделям говорить «Я не знаю» вместо галлюцинаций

Creation OS — это локальный AI-рантайм, который оборачивает локальные LLM с σ-затвором — измерительным слоем, оценивающим каждый вывод по нескольким каналам неопределенности и принимающим решение ACCEPT, RETHINK или ABSTAIN. Цель — позволить локальным моделям отказываться от ответов при неопределенности вместо галлюцинаций.
Ключевые возможности и установка
- Поддерживает BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B и любую GGUF модель.
- Работает на MacBook Air M4 8GB в качестве основного устройства — без облака, без API, ничего не покидает устройство.
- Установка:
git clone https://github.com/spektre-labs/creation-os, затемcd creation-os && bash scripts/quickstart.sh - Полный путь с локальными весами:
./scripts/install.sh, затем./cos chat
Измерения σ-затвора
Затвор объединяет logprob, энтропию, перплексию, согласованность, семантическую σ, конформную τ, когерентность сессии и метакогнитивные каналы в единый вердикт:
- ACCEPT → показать ответ
- RETHINK → регенерировать
- ABSTAIN → отказаться
Результаты бенчмарков
TruthfulQA (те же промпты и сиды):
|Mode |Accuracy|Coverage| |-------------|--------|--------| |BitNet only |0.261 |0.136 | |σ-pipeline |0.336 |0.171 |
+28.7% точности за счет селективной регенерации на неопределенных строках. LSD probe AUROC: 0.982 на TruthfulQA holdout, 0.960 на TriviaQA. ECE: 0.043. Ошибочных+уверенных: 0. Конформная граница: P(ошибка | ACCEPT) ≤ α при α=0.80.
Отрицательные результаты задокументированы: σ не доминирует на HellaSwag или MMLU. Полные детали в CLAIM_DISCIPLINE.md.
Формальная верификация
Lean 4: 6/6 без sorry. Frama-C WP: 15/15 tier-1 разряжено.
Пример команды
./cos chat --once --prompt "Сколько будет 2+2?" --multi-sigma --verbose выдает вывод вида σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.
Интеграция с MCP
Запустите python3 -m cos.mcp_sigma_server чтобы предоставить σ для каждого ответа любому MCP-совместимому клиенту.
Ограничения
σ не является универсальным детектором галлюцинаций — наиболее силен на фактологических QA; длинные формы требуют дополнительной оценки. Качество локальной модели по-прежнему зависит от базовой модели.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

engram v3.4.0 добавляет плагин Anthropic для поддержания работы Claude Code в условиях новых лимитов скорости
engram v3.4.0 представляет выделенный плагин Anthropic для Claude Code, добавляющий три навыка для управления затратами, запроса контекста и выявления ошибок. Установите с помощью `/plugin install engram` или `npm install -g engramx@latest`.
Игла: 26-миллионная модель вызова инструментов, построенная полностью без FFN
Needle — это модель вызова функций с 26 миллионами параметров без MLP, достигающая 6000 токенов/с на префилле и 1200 токенов/с на декоде на потребительских устройствах. Она превосходит FunctionGemma-270M, Qwen-0.6B, Granite-350M и LFM2.5-350M в одношаговом вызове инструментов.

Как я разработал навык для развертывания агентов OpenClaw в веб-приложениях - Закулисный взгляд
Изучите инновационное новое умение, разработанное для агентов OpenClaw, которое облегчает развертывание веб-приложений. Узнайте о его возможностях, преимуществах и о том, как оно преобразует производственные процессы.

Открытое хранилище памяти ИИ для проектов на NodeJS
Mind Palace — это система хранения и извлечения памяти с открытым исходным кодом для NodeJS, которая сохраняет информацию между сессиями чата LLM. Она поддерживает основные LLM и векторные хранилища, автоматически извлекая и векторизуя суммированные воспоминания из взаимодействий.