Creation OS : Runtime LLM local avec σ-gate anti-hallucination

Creation OS est un runtime IA local-first qui enveloppe les LLM locaux avec une σ-gate — une couche de mesure qui évalue chaque sortie sur plusieurs canaux d'incertitude et décide ACCEPTER, REPENSER ou S'ABSTENIR. L'objectif est de permettre aux modèles locaux de refuser les réponses en cas d'incertitude plutôt que d'halluciner.

Fonctionnalités clés et installation

Prend en charge BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B, et tout modèle GGUF.
Fonctionne sur un MacBook Air M4 8 Go comme machine principale — pas de cloud, pas d'API, rien ne quitte l'appareil.
Installation : git clone https://github.com/spektre-labs/creation-os puis cd creation-os && bash scripts/quickstart.sh
Chemin complet avec poids locaux : ./scripts/install.sh puis ./cos chat

Mesures de la σ-Gate

La porte combine logprob, entropie, perplexité, cohérence, σ sémantique, τ conforme, cohérence de session et canaux métacognitifs en un verdict unique :

ACCEPTER → afficher la réponse
REPENSER → régénérer
S'ABSTENIR → refuser

Résultats de benchmark

TruthfulQA (mêmes prompts et graines) :

  |Mode         |Précision|Couverture|  |-------------|---------|----------|  |BitNet seul  |0.261    |0.136     |  |σ-pipeline   |0.336    |0.171     |

+28,7% de précision grâce à la régénération sélective sur les lignes incertaines. AUROC de la sonde LSD : 0,982 sur l'ensemble de test TruthfulQA, 0,960 sur TriviaQA. ECE : 0,043. Erreur+confiant : 0. Limite conforme : P(erreur | ACCEPTER) ≤ α à α=0,80.

Résultats négatifs documentés : σ n'est pas dominant sur HellaSwag ou MMLU. Détails complets dans CLAIM_DISCIPLINE.md.

Vérification formelle

Lean 4 : 6/6 sans sorry. Frama-C WP : 15/15 de niveau 1 validés.

Exemple de commande

./cos chat --once --prompt "Que fait 2+2 ?" --multi-sigma --verbose produit une sortie comme σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.

Intégration MCP

Exécutez python3 -m cos.mcp_sigma_server pour exposer σ sur chaque réponse à tout client compatible MCP.

Limitations

σ n'est pas un détecteur d'hallucination universel — le plus efficace sur les QA factuelles ; les réponses longues nécessitent plus d'évaluation. La qualité du modèle local dépend toujours du modèle de base.

📖 Lire la source complète : r/LocalLLaMA

Système d'exploitation Création : Un runtime LLM local à porte σ qui permet aux modèles de dire « Je ne sais pas » plutôt que d'halluciner

Fonctionnalités clés et installation

Mesures de la σ-Gate

Résultats de benchmark

Vérification formelle

Exemple de commande

Intégration MCP

Limitations

👀 See Also

L'outil de lecture de Claude Code réduit silencieusement la qualité des images, provoquant des hallucinations

AgentPeek : Tableau de bord open source pour surveiller les équipes d'agents Claude Code

cc-session-utils : Tableau de bord TUI pour gérer les sessions et les coûts de Claude Code

Pipeline Humanizer open-source : fichier Markdown en six étapes pour le post-traitement de texte IA