Creation OS:モデルが幻覚ではなく「わからない」と言えるようにするローカルσゲートLLMランタイム

✍️ OpenClawRadar📅 公開日: April 30, 2026🔗 Source
Creation OS:モデルが幻覚ではなく「わからない」と言えるようにするローカルσゲートLLMランタイム
Ad

Creation OSは、ローカルファーストのAIランタイムで、ローカルLLMをσゲートでラップします。σゲートは測定層であり、各出力を複数の不確実性チャネルにわたってスコアリングし、ACCEPT、RETHINK、またはABSTAINを決定します。目標は、ローカルモデルが不確かな場合に幻覚を見る代わりに回答を拒否できるようにすることです。

主な機能とセットアップ

  • BitNet b1.58 2B-4T、Qwen3-8B Q4_K_M、Gemma 3 4B、および任意のGGUFモデルをサポート。
  • MacBook Air M4 8GBをメインマシンとして動作 — クラウドもAPIも不要、デバイス外にデータは出ません。
  • インストール: git clone https://github.com/spektre-labs/creation-os その後 cd creation-os && bash scripts/quickstart.sh
  • ローカル重みを含む完全パス: ./scripts/install.sh その後 ./cos chat

σゲートの測定

ゲートは、ログ確率、エントロピー、パープレキシティ、一貫性、意味的σ、共形的τ、セッションの一貫性、メタ認知チャネルを組み合わせて単一の判定を下します:

  • ACCEPT → 回答を表示
  • RETHINK → 再生成
  • ABSTAIN → 拒否
Ad

ベンチマーク結果

TruthfulQA(同じプロンプトとシード):

  |Mode         |Accuracy|Coverage|  |-------------|--------|--------|  |BitNet only  |0.261   |0.136   |  |σ-pipeline   |0.336   |0.171   |

不確かな行に対する選択的再生成により+28.7%の精度向上。 LSDプローブAUROC: TruthfulQAホールドアウトで0.982、TriviaQAで0.960。 ECE: 0.043。 誤ってかつ自信あり: 0。 共形境界: P(エラー | ACCEPT) ≤ α(α=0.80)。

否定的な結果も文書化: σはHellaSwagやMMLUでは支配的ではありません。 詳細はCLAIM_DISCIPLINE.mdを参照。

形式的検証

Lean 4: 6/6 sorryフリー。 Frama-C WP: 15/15 tier-1完了。

コマンド例

./cos chat --once --prompt "What is 2+2?" --multi-sigma --verbose は次のような出力を生成します: σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.

MCP統合

python3 -m cos.mcp_sigma_server を実行すると、MCP互換クライアントへのすべての応答にσを公開します。

制限事項

σは普遍的な幻覚検出器ではありません — 事実に基づくQAで最も強力;長文ではさらなる評価が必要。 ローカルモデルの品質は依然としてベースモデルに依存します。

📖 全文ソースを読む: r/LocalLLaMA

Ad

👀 See Also

スマートピクセルクロックを使用したClaude AI完了通知
Tools

スマートピクセルクロックを使用したClaude AI完了通知

Redditユーザーが、カスタムファームウェアとHTTPエンドポイントを備えたULANZI TC001スマートピクセルクロックを使用してClaude AIの完了通知を表示する方法を共有しています。

OpenClawRadar
Hyper iOSアプリ:リアルタイム文字起こしとアクション抽出付き音声レコーダー
Tools

Hyper iOSアプリ:リアルタイム文字起こしとアクション抽出付き音声レコーダー

Hyperは、会話をリアルタイムで文字起こしし、要約とアクション項目を提供し、ウェイクワード検出による会話中のクエリを可能にするiOS音声レコーダーアプリです。1対1の面談、コーヒーチャット、スタンドアップなど、非構造化された会議向けに設計されています。

OpenClawRadar
Claude向けオープンソースSQLiteベース永続メモリシステム
Tools

Claude向けオープンソースSQLiteベース永続メモリシステム

開発者が、Claudeのセッションからチェックポイントで知識を抽出し、SQLiteに保存し、新しいセッションで再構築して会話間のコンテキストを維持する、GPLライセンスのローカルシステム「memchat」をリリースしました。

OpenClawRadar
HomeButler:OpenClawエージェントのためのゼロトークンホームラボ管理
Tools

HomeButler:OpenClawエージェントのためのゼロトークンホームラボ管理

HomeButlerは、APIキーやトークンなしでOpenClawエージェントがホームラボインフラを管理できる単一のGoバイナリです。ローカルで動作し、すべての操作をネットワーク内に保持します。

OpenClawRadar