σゲートLLMランタイム「Creation OS」：幻覚抑制と29%精度向上

Creation OSは、ローカルファーストのAIランタイムで、ローカルLLMをσゲートでラップします。σゲートは測定層であり、各出力を複数の不確実性チャネルにわたってスコアリングし、ACCEPT、RETHINK、またはABSTAINを決定します。目標は、ローカルモデルが不確かな場合に幻覚を見る代わりに回答を拒否できるようにすることです。

主な機能とセットアップ

BitNet b1.58 2B-4T、Qwen3-8B Q4_K_M、Gemma 3 4B、および任意のGGUFモデルをサポート。
MacBook Air M4 8GBをメインマシンとして動作 — クラウドもAPIも不要、デバイス外にデータは出ません。
インストール: git clone https://github.com/spektre-labs/creation-os その後 cd creation-os && bash scripts/quickstart.sh
ローカル重みを含む完全パス: ./scripts/install.sh その後 ./cos chat

σゲートの測定

ゲートは、ログ確率、エントロピー、パープレキシティ、一貫性、意味的σ、共形的τ、セッションの一貫性、メタ認知チャネルを組み合わせて単一の判定を下します:

ACCEPT → 回答を表示
RETHINK → 再生成
ABSTAIN → 拒否

ベンチマーク結果

TruthfulQA（同じプロンプトとシード）:

  |Mode         |Accuracy|Coverage|  |-------------|--------|--------|  |BitNet only  |0.261   |0.136   |  |σ-pipeline   |0.336   |0.171   |

不確かな行に対する選択的再生成により+28.7%の精度向上。 LSDプローブAUROC: TruthfulQAホールドアウトで0.982、TriviaQAで0.960。 ECE: 0.043。誤ってかつ自信あり: 0。共形境界: P(エラー | ACCEPT) ≤ α（α=0.80）。

否定的な結果も文書化: σはHellaSwagやMMLUでは支配的ではありません。詳細はCLAIM_DISCIPLINE.mdを参照。

形式的検証

Lean 4: 6/6 sorryフリー。 Frama-C WP: 15/15 tier-1完了。

コマンド例

./cos chat --once --prompt "What is 2+2?" --multi-sigma --verbose は次のような出力を生成します: σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.

MCP統合

python3 -m cos.mcp_sigma_server を実行すると、MCP互換クライアントへのすべての応答にσを公開します。

制限事項

σは普遍的な幻覚検出器ではありません — 事実に基づくQAで最も強力；長文ではさらなる評価が必要。ローカルモデルの品質は依然としてベースモデルに依存します。

📖 全文ソースを読む: r/LocalLLaMA

Creation OS：モデルが幻覚ではなく「わからない」と言えるようにするローカルσゲートLLMランタイム

主な機能とセットアップ

σゲートの測定

ベンチマーク結果

形式的検証

コマンド例

MCP統合

制限事項

👀 See Also

スマートピクセルクロックを使用したClaude AI完了通知

Hyper iOSアプリ：リアルタイム文字起こしとアクション抽出付き音声レコーダー

Claude向けオープンソースSQLiteベース永続メモリシステム

HomeButler：OpenClawエージェントのためのゼロトークンホームラボ管理