Creation OS: Ein lokaler σ-gesteuerter LLM-Laufzeit, der Modelle sagen lässt „Ich weiß es nicht“ statt zu halluzinieren

Creation OS ist eine lokale KI-Laufzeitumgebung, die lokale LLMs mit einem σ-Gate umhüllt – einer Messschicht, die jede Ausgabe über mehrere Unsicherheitskanäle bewertet und ACCEPT, RETHINK oder ABSTAIN entscheidet. Ziel ist es, lokalen Modellen zu erlauben, bei Unsicherheit Antworten zu verweigern, anstatt zu halluzinieren.
Hauptfunktionen und Einrichtung
- Unterstützt BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B und jedes GGUF-Modell.
- Läuft auf einem MacBook Air M4 mit 8 GB als primärem Gerät – keine Cloud, keine API, nichts verlässt das Gerät.
- Installation:
git clone https://github.com/spektre-labs/creation-osdanncd creation-os && bash scripts/quickstart.sh - Vollständiger Pfad mit lokalen Gewichten:
./scripts/install.shdann./cos chat
σ-Gate-Messungen
Das Gate kombiniert Log-Wahrscheinlichkeit, Entropie, Perplexität, Konsistenz, semantisches σ, konformes τ, Sitzungskohärenz und metakognitive Kanäle zu einem einzigen Urteil:
- ACCEPT → Antwort anzeigen
- RETHINK → neu generieren
- ABSTAIN → verweigern
Benchmark-Ergebnisse
TruthfulQA (gleiche Prompts und Seeds):
|Mode |Accuracy|Coverage| |-------------|--------|--------| |BitNet only |0.261 |0.136 | |σ-pipeline |0.336 |0.171 |
+28,7 % Genauigkeit durch selektive Regeneration bei unsicheren Zeilen. LSD-Probe AUROC: 0,982 auf TruthfulQA-Holdout, 0,960 auf TriviaQA. ECE: 0,043. Falsch+sicher: 0. Konformitätsgrenze: P(Fehler | ACCEPT) ≤ α bei α=0,80.
Negative Ergebnisse dokumentiert: σ ist bei HellaSwag oder MMLU nicht dominant. Vollständige Details in CLAIM_DISCIPLINE.md.
Formale Verifikation
Lean 4: 6/6 sorry-frei. Frama-C WP: 15/15 Tier-1 abgeschlossen.
Beispielbefehl
./cos chat --once --prompt "Was ist 2+2?" --multi-sigma --verbose liefert eine Ausgabe wie σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.
MCP-Integration
Führen Sie python3 -m cos.mcp_sigma_server aus, um σ bei jeder Antwort für jeden MCP-kompatiblen Client verfügbar zu machen.
Einschränkungen
σ ist kein universeller Halluzinationsdetektor – am stärksten bei faktenbasierten Fragen; Langform-Antworten erfordern weitere Evaluierung. Die Qualität lokaler Modelle hängt weiterhin vom Basismodell ab.
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Strukturierte Denkvorlage verbessert die Genauigkeit von KI-Code-Reviews
Ein Reddit-Nutzer teilt eine strukturierte Denkvorlage, die von der Meta-Forschung adaptiert wurde und KI-Modelle dazu zwingt, bestimmte analytische Schritte abzuschließen, bevor sie Code-Reviews generieren, was die Genauigkeit laut arXiv:2603.01896 um 5-12 Prozentpunkte verbessert.

Claude Skills Hub: Durchsuchbares Repository für 789+ Claude Code Skills und 10 autonome Agenten
Claude Skills Hub (clskills.in) bietet eine zentralisierte Suchoberfläche für 789+ Claude Code Skill-Dateien in 71 Kategorien sowie 10 autonome KI-Agenten, die mehrere Skills zu vollständigen Workflows verknüpfen. Das Open-Source-Projekt sammelt Skills aus mehreren Community-Sammlungen und ermöglicht Downloads mit einem Klick.

Org Studio: Open-Source-Dashboard zur Verwaltung von Multi-Agenten-KI-Teams
Org Studio ist ein Open-Source-Dashboard, das Organisationsdesign-Prinzipien anwendet, um Teams von KI-Agenten zu koordinieren, mit nativer Unterstützung für sowohl OpenClaw- als auch Hermes-Agent-Laufzeitumgebungen. Es bietet Team-Topologie-Management, ereignisgesteuerte Aufgabenbretter und kommunikationsübergreifende Laufzeitumgebungen, in denen Agenten sich gegenseitig in Aufgabenkommentaren erwähnen können.

MCP-Server verbindet KI-Agenten mit bestehenden Chrome-Sitzungen inklusive Cookies und Authentifizierung
@playwright-repl/mcp ist ein MCP-Server, der KI-Agenten mit Ihrem bestehenden Chrome-Browser über die Dramaturg-Erweiterung verbindet und Zugriff auf Ihre echte Browsersitzung inklusive Cookies und Authentifizierung bietet. Er unterstützt vollständiges Playwright JavaScript, Assertions und funktioniert mit Claude Desktop, Claude Code, Cursor oder jedem MCP-Client.