Système d'exploitation Création : Un runtime LLM local à porte σ qui permet aux modèles de dire « Je ne sais pas » plutôt que d'halluciner

Creation OS est un runtime IA local-first qui enveloppe les LLM locaux avec une σ-gate — une couche de mesure qui évalue chaque sortie sur plusieurs canaux d'incertitude et décide ACCEPTER, REPENSER ou S'ABSTENIR. L'objectif est de permettre aux modèles locaux de refuser les réponses en cas d'incertitude plutôt que d'halluciner.
Fonctionnalités clés et installation
- Prend en charge BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B, et tout modèle GGUF.
- Fonctionne sur un MacBook Air M4 8 Go comme machine principale — pas de cloud, pas d'API, rien ne quitte l'appareil.
- Installation :
git clone https://github.com/spektre-labs/creation-ospuiscd creation-os && bash scripts/quickstart.sh - Chemin complet avec poids locaux :
./scripts/install.shpuis./cos chat
Mesures de la σ-Gate
La porte combine logprob, entropie, perplexité, cohérence, σ sémantique, τ conforme, cohérence de session et canaux métacognitifs en un verdict unique :
- ACCEPTER → afficher la réponse
- REPENSER → régénérer
- S'ABSTENIR → refuser
Résultats de benchmark
TruthfulQA (mêmes prompts et graines) :
|Mode |Précision|Couverture| |-------------|---------|----------| |BitNet seul |0.261 |0.136 | |σ-pipeline |0.336 |0.171 |
+28,7% de précision grâce à la régénération sélective sur les lignes incertaines. AUROC de la sonde LSD : 0,982 sur l'ensemble de test TruthfulQA, 0,960 sur TriviaQA. ECE : 0,043. Erreur+confiant : 0. Limite conforme : P(erreur | ACCEPTER) ≤ α à α=0,80.
Résultats négatifs documentés : σ n'est pas dominant sur HellaSwag ou MMLU. Détails complets dans CLAIM_DISCIPLINE.md.
Vérification formelle
Lean 4 : 6/6 sans sorry. Frama-C WP : 15/15 de niveau 1 validés.
Exemple de commande
./cos chat --once --prompt "Que fait 2+2 ?" --multi-sigma --verbose produit une sortie comme σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.
Intégration MCP
Exécutez python3 -m cos.mcp_sigma_server pour exposer σ sur chaque réponse à tout client compatible MCP.
Limitations
σ n'est pas un détecteur d'hallucination universel — le plus efficace sur les QA factuelles ; les réponses longues nécessitent plus d'évaluation. La qualité du modèle local dépend toujours du modèle de base.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

boxBot : Un haut-parleur intelligent open-source propulsé par Claude et Hailo AI
Un développeur a construit un haut-parleur intelligent nommé boxBot en utilisant Claude pour le contrôle matériel piloté par agent, Raspberry Pi, accélérateur IA Hailo et SDK personnalisé, le tout open-sourcé sur GitHub.

Fino : Serveur MCP Open-Source pour l'Analyse de Finance Personnelle avec Claude
Fino est un serveur MCP gratuit et open-source qui connecte Claude aux comptes bancaires via Plaid, stocke les données de transactions localement dans SQLite, et fournit à Claude des outils pour l'analyse financière.

L'outil de lecture de Claude Code réduit silencieusement la qualité des images, provoquant des hallucinations
L'outil `read` de Claude Code réduit silencieusement la résolution des images avant que le modèle ne les voie, ce qui entraîne une dégradation des résultats et des hallucinations non reconnues lors de l'extraction de texte à partir de captures d'écran.

Compétences de Claude en Code pour l'Échafaudage Automatisé de Projets
Un développeur a créé des compétences Claude Code qui automatisent la configuration complète de projets full-stack avec des commandes pour React, Next.js, les API Node.js et les monorepos Turborepo. Les compétences récupèrent les dernières dépendances, prennent en charge plus de 50 intégrations et sont sous licence MIT.