Creation OS: Runtime Local de LLM com Porta σ Contra Alucinação

O Creation OS é um runtime de IA local-first que envolve LLMs locais com um σ-gate — uma camada de medição que pontua cada saída em múltiplos canais de incerteza e decide ACEITAR, REPENSAR ou ABSTER-SE. O objetivo é permitir que modelos locais recusem respostas quando incertos, em vez de alucinar.

Principais Recursos e Configuração

Suporta BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B e qualquer modelo GGUF.
Roda em um MacBook Air M4 8GB como máquina principal — sem nuvem, sem API, nada sai do dispositivo.
Instalação: git clone https://github.com/spektre-labs/creation-os e depois cd creation-os && bash scripts/quickstart.sh
Caminho completo com pesos locais: ./scripts/install.sh e depois ./cos chat

Medições do σ-Gate

O gate combina logprob, entropia, perplexidade, consistência, σ semântico, τ conforme, coerência de sessão e canais metacognitivos em um único veredito:

ACEITAR → mostrar resposta
REPENSAR → regenerar
ABSTER-SE → recusar

Resultados de Benchmark

TruthfulQA (mesmos prompts e sementes):

  |Modo         |Precisão|Cobertura|  |-------------|--------|---------|  |Apenas BitNet |0,261   |0,136    |  |σ-pipeline    |0,336   |0,171    |

+28,7% de precisão através de regeneração seletiva em linhas incertas. AUROC do probe LSD: 0,982 no holdout do TruthfulQA, 0,960 no TriviaQA. ECE: 0,043. Erro+confiança: 0. Limite conforme: P(erro | ACEITAR) ≤ α em α=0,80.

Resultados negativos documentados: σ não é dominante no HellaSwag ou MMLU. Detalhes completos em CLAIM_DISCIPLINE.md.

Verificação Formal

Lean 4: 6/6 sem sorry. Frama-C WP: 15/15 tier-1 quitado.

Comando de Exemplo

./cos chat --once --prompt "Quanto é 2+2?" --multi-sigma --verbose produz saída como σ_peak=0,06 action=ACEITAR route=LOCAL σ_combined=0,184 conformal@α=0,80.

Integração MCP

Execute python3 -m cos.mcp_sigma_server para expor σ em cada resposta a qualquer cliente compatível com MCP.

Limitações

σ não é um detector universal de alucinação — mais forte em QA factual; formato longo precisa de mais avaliação. A qualidade do modelo local ainda depende do modelo base.

📖 Leia a fonte completa: r/LocalLLaMA