Creation OS: Ein lokaler σ-gesteuerter LLM-Laufzeit, der Modelle sagen lässt „Ich weiß es nicht“ statt zu halluzinieren

✍️ OpenClawRadar📅 Veröffentlicht: 30. April 2026🔗 Source
Creation OS: Ein lokaler σ-gesteuerter LLM-Laufzeit, der Modelle sagen lässt „Ich weiß es nicht“ statt zu halluzinieren
Ad

Creation OS ist eine lokale KI-Laufzeitumgebung, die lokale LLMs mit einem σ-Gate umhüllt – einer Messschicht, die jede Ausgabe über mehrere Unsicherheitskanäle bewertet und ACCEPT, RETHINK oder ABSTAIN entscheidet. Ziel ist es, lokalen Modellen zu erlauben, bei Unsicherheit Antworten zu verweigern, anstatt zu halluzinieren.

Hauptfunktionen und Einrichtung

  • Unterstützt BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B und jedes GGUF-Modell.
  • Läuft auf einem MacBook Air M4 mit 8 GB als primärem Gerät – keine Cloud, keine API, nichts verlässt das Gerät.
  • Installation: git clone https://github.com/spektre-labs/creation-os dann cd creation-os && bash scripts/quickstart.sh
  • Vollständiger Pfad mit lokalen Gewichten: ./scripts/install.sh dann ./cos chat

σ-Gate-Messungen

Das Gate kombiniert Log-Wahrscheinlichkeit, Entropie, Perplexität, Konsistenz, semantisches σ, konformes τ, Sitzungskohärenz und metakognitive Kanäle zu einem einzigen Urteil:

  • ACCEPT → Antwort anzeigen
  • RETHINK → neu generieren
  • ABSTAIN → verweigern
Ad

Benchmark-Ergebnisse

TruthfulQA (gleiche Prompts und Seeds):

  |Mode         |Accuracy|Coverage|  |-------------|--------|--------|  |BitNet only  |0.261   |0.136   |  |σ-pipeline   |0.336   |0.171   |

+28,7 % Genauigkeit durch selektive Regeneration bei unsicheren Zeilen. LSD-Probe AUROC: 0,982 auf TruthfulQA-Holdout, 0,960 auf TriviaQA. ECE: 0,043. Falsch+sicher: 0. Konformitätsgrenze: P(Fehler | ACCEPT) ≤ α bei α=0,80.

Negative Ergebnisse dokumentiert: σ ist bei HellaSwag oder MMLU nicht dominant. Vollständige Details in CLAIM_DISCIPLINE.md.

Formale Verifikation

Lean 4: 6/6 sorry-frei. Frama-C WP: 15/15 Tier-1 abgeschlossen.

Beispielbefehl

./cos chat --once --prompt "Was ist 2+2?" --multi-sigma --verbose liefert eine Ausgabe wie σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.

MCP-Integration

Führen Sie python3 -m cos.mcp_sigma_server aus, um σ bei jeder Antwort für jeden MCP-kompatiblen Client verfügbar zu machen.

Einschränkungen

σ ist kein universeller Halluzinationsdetektor – am stärksten bei faktenbasierten Fragen; Langform-Antworten erfordern weitere Evaluierung. Die Qualität lokaler Modelle hängt weiterhin vom Basismodell ab.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch

Strukturierte Denkvorlage verbessert die Genauigkeit von KI-Code-Reviews
Werkzeuge

Strukturierte Denkvorlage verbessert die Genauigkeit von KI-Code-Reviews

Ein Reddit-Nutzer teilt eine strukturierte Denkvorlage, die von der Meta-Forschung adaptiert wurde und KI-Modelle dazu zwingt, bestimmte analytische Schritte abzuschließen, bevor sie Code-Reviews generieren, was die Genauigkeit laut arXiv:2603.01896 um 5-12 Prozentpunkte verbessert.

OpenClawRadar
Claude Skills Hub: Durchsuchbares Repository für 789+ Claude Code Skills und 10 autonome Agenten
Werkzeuge

Claude Skills Hub: Durchsuchbares Repository für 789+ Claude Code Skills und 10 autonome Agenten

Claude Skills Hub (clskills.in) bietet eine zentralisierte Suchoberfläche für 789+ Claude Code Skill-Dateien in 71 Kategorien sowie 10 autonome KI-Agenten, die mehrere Skills zu vollständigen Workflows verknüpfen. Das Open-Source-Projekt sammelt Skills aus mehreren Community-Sammlungen und ermöglicht Downloads mit einem Klick.

OpenClawRadar
Org Studio: Open-Source-Dashboard zur Verwaltung von Multi-Agenten-KI-Teams
Werkzeuge

Org Studio: Open-Source-Dashboard zur Verwaltung von Multi-Agenten-KI-Teams

Org Studio ist ein Open-Source-Dashboard, das Organisationsdesign-Prinzipien anwendet, um Teams von KI-Agenten zu koordinieren, mit nativer Unterstützung für sowohl OpenClaw- als auch Hermes-Agent-Laufzeitumgebungen. Es bietet Team-Topologie-Management, ereignisgesteuerte Aufgabenbretter und kommunikationsübergreifende Laufzeitumgebungen, in denen Agenten sich gegenseitig in Aufgabenkommentaren erwähnen können.

OpenClawRadar
MCP-Server verbindet KI-Agenten mit bestehenden Chrome-Sitzungen inklusive Cookies und Authentifizierung
Werkzeuge

MCP-Server verbindet KI-Agenten mit bestehenden Chrome-Sitzungen inklusive Cookies und Authentifizierung

@playwright-repl/mcp ist ein MCP-Server, der KI-Agenten mit Ihrem bestehenden Chrome-Browser über die Dramaturg-Erweiterung verbindet und Zugriff auf Ihre echte Browsersitzung inklusive Cookies und Authentifizierung bietet. Er unterstützt vollständiges Playwright JavaScript, Assertions und funktioniert mit Claude Desktop, Claude Code, Cursor oder jedem MCP-Client.

OpenClawRadar