Creation OS: σ-gesteuerter LLM-Laufzeit reduziert Halluzinationen

Creation OS ist eine lokale KI-Laufzeitumgebung, die lokale LLMs mit einem σ-Gate umhüllt – einer Messschicht, die jede Ausgabe über mehrere Unsicherheitskanäle bewertet und ACCEPT, RETHINK oder ABSTAIN entscheidet. Ziel ist es, lokalen Modellen zu erlauben, bei Unsicherheit Antworten zu verweigern, anstatt zu halluzinieren.

Hauptfunktionen und Einrichtung

Unterstützt BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B und jedes GGUF-Modell.
Läuft auf einem MacBook Air M4 mit 8 GB als primärem Gerät – keine Cloud, keine API, nichts verlässt das Gerät.
Installation: git clone https://github.com/spektre-labs/creation-os dann cd creation-os && bash scripts/quickstart.sh
Vollständiger Pfad mit lokalen Gewichten: ./scripts/install.sh dann ./cos chat

σ-Gate-Messungen

Das Gate kombiniert Log-Wahrscheinlichkeit, Entropie, Perplexität, Konsistenz, semantisches σ, konformes τ, Sitzungskohärenz und metakognitive Kanäle zu einem einzigen Urteil:

ACCEPT → Antwort anzeigen
RETHINK → neu generieren
ABSTAIN → verweigern

Benchmark-Ergebnisse

TruthfulQA (gleiche Prompts und Seeds):

  |Mode         |Accuracy|Coverage|  |-------------|--------|--------|  |BitNet only  |0.261   |0.136   |  |σ-pipeline   |0.336   |0.171   |

+28,7 % Genauigkeit durch selektive Regeneration bei unsicheren Zeilen. LSD-Probe AUROC: 0,982 auf TruthfulQA-Holdout, 0,960 auf TriviaQA. ECE: 0,043. Falsch+sicher: 0. Konformitätsgrenze: P(Fehler | ACCEPT) ≤ α bei α=0,80.

Negative Ergebnisse dokumentiert: σ ist bei HellaSwag oder MMLU nicht dominant. Vollständige Details in CLAIM_DISCIPLINE.md.

Formale Verifikation

Lean 4: 6/6 sorry-frei. Frama-C WP: 15/15 Tier-1 abgeschlossen.

Beispielbefehl

./cos chat --once --prompt "Was ist 2+2?" --multi-sigma --verbose liefert eine Ausgabe wie σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.

MCP-Integration

Führen Sie python3 -m cos.mcp_sigma_server aus, um σ bei jeder Antwort für jeden MCP-kompatiblen Client verfügbar zu machen.

Einschränkungen

σ ist kein universeller Halluzinationsdetektor – am stärksten bei faktenbasierten Fragen; Langform-Antworten erfordern weitere Evaluierung. Die Qualität lokaler Modelle hängt weiterhin vom Basismodell ab.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA