Système d'exploitation Création : Un runtime LLM local à porte σ qui permet aux modèles de dire « Je ne sais pas » plutôt que d'halluciner

✍️ OpenClawRadar📅 Publié: April 30, 2026🔗 Source
Système d'exploitation Création : Un runtime LLM local à porte σ qui permet aux modèles de dire « Je ne sais pas » plutôt que d'halluciner
Ad

Creation OS est un runtime IA local-first qui enveloppe les LLM locaux avec une σ-gate — une couche de mesure qui évalue chaque sortie sur plusieurs canaux d'incertitude et décide ACCEPTER, REPENSER ou S'ABSTENIR. L'objectif est de permettre aux modèles locaux de refuser les réponses en cas d'incertitude plutôt que d'halluciner.

Fonctionnalités clés et installation

  • Prend en charge BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B, et tout modèle GGUF.
  • Fonctionne sur un MacBook Air M4 8 Go comme machine principale — pas de cloud, pas d'API, rien ne quitte l'appareil.
  • Installation : git clone https://github.com/spektre-labs/creation-os puis cd creation-os && bash scripts/quickstart.sh
  • Chemin complet avec poids locaux : ./scripts/install.sh puis ./cos chat

Mesures de la σ-Gate

La porte combine logprob, entropie, perplexité, cohérence, σ sémantique, τ conforme, cohérence de session et canaux métacognitifs en un verdict unique :

  • ACCEPTER → afficher la réponse
  • REPENSER → régénérer
  • S'ABSTENIR → refuser
Ad

Résultats de benchmark

TruthfulQA (mêmes prompts et graines) :

  |Mode         |Précision|Couverture|  |-------------|---------|----------|  |BitNet seul  |0.261    |0.136     |  |σ-pipeline   |0.336    |0.171     |

+28,7% de précision grâce à la régénération sélective sur les lignes incertaines. AUROC de la sonde LSD : 0,982 sur l'ensemble de test TruthfulQA, 0,960 sur TriviaQA. ECE : 0,043. Erreur+confiant : 0. Limite conforme : P(erreur | ACCEPTER) ≤ α à α=0,80.

Résultats négatifs documentés : σ n'est pas dominant sur HellaSwag ou MMLU. Détails complets dans CLAIM_DISCIPLINE.md.

Vérification formelle

Lean 4 : 6/6 sans sorry. Frama-C WP : 15/15 de niveau 1 validés.

Exemple de commande

./cos chat --once --prompt "Que fait 2+2 ?" --multi-sigma --verbose produit une sortie comme σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.

Intégration MCP

Exécutez python3 -m cos.mcp_sigma_server pour exposer σ sur chaque réponse à tout client compatible MCP.

Limitations

σ n'est pas un détecteur d'hallucination universel — le plus efficace sur les QA factuelles ; les réponses longues nécessitent plus d'évaluation. La qualité du modèle local dépend toujours du modèle de base.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

boxBot : Un haut-parleur intelligent open-source propulsé par Claude et Hailo AI
Tools

boxBot : Un haut-parleur intelligent open-source propulsé par Claude et Hailo AI

Un développeur a construit un haut-parleur intelligent nommé boxBot en utilisant Claude pour le contrôle matériel piloté par agent, Raspberry Pi, accélérateur IA Hailo et SDK personnalisé, le tout open-sourcé sur GitHub.

OpenClawRadar
Fino : Serveur MCP Open-Source pour l'Analyse de Finance Personnelle avec Claude
Tools

Fino : Serveur MCP Open-Source pour l'Analyse de Finance Personnelle avec Claude

Fino est un serveur MCP gratuit et open-source qui connecte Claude aux comptes bancaires via Plaid, stocke les données de transactions localement dans SQLite, et fournit à Claude des outils pour l'analyse financière.

OpenClawRadar
L'outil de lecture de Claude Code réduit silencieusement la qualité des images, provoquant des hallucinations
Tools

L'outil de lecture de Claude Code réduit silencieusement la qualité des images, provoquant des hallucinations

L'outil `read` de Claude Code réduit silencieusement la résolution des images avant que le modèle ne les voie, ce qui entraîne une dégradation des résultats et des hallucinations non reconnues lors de l'extraction de texte à partir de captures d'écran.

OpenClawRadar
Compétences de Claude en Code pour l'Échafaudage Automatisé de Projets
Tools

Compétences de Claude en Code pour l'Échafaudage Automatisé de Projets

Un développeur a créé des compétences Claude Code qui automatisent la configuration complète de projets full-stack avec des commandes pour React, Next.js, les API Node.js et les monorepos Turborepo. Les compétences récupèrent les dernières dépendances, prennent en charge plus de 50 intégrations et sont sous licence MIT.

OpenClawRadar