σ-Gate en Creation OS: LLM Local Dice "No Sé" y Reduce Alucinaciones 29%

Creation OS es un runtime de IA local-first que envuelve LLMs locales con una σ-gate — una capa de medición que puntúa cada salida a través de múltiples canales de incertidumbre y decide ACEPTAR, REPENSAR o ABSTENERSE. El objetivo es permitir que los modelos locales se nieguen a responder cuando están inseguros, en lugar de alucinar.

Características clave y configuración

Compatible con BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B y cualquier modelo GGUF.
Funciona en un MacBook Air M4 8GB como máquina principal — sin nube, sin API, nada sale del dispositivo.
Instalación: git clone https://github.com/spektre-labs/creation-os luego cd creation-os && bash scripts/quickstart.sh
Ruta completa con pesos locales: ./scripts/install.sh luego ./cos chat

Mediciones de la σ-gate

La compuerta combina logprob, entropía, perplejidad, consistencia, σ semántica, τ conforme, coherencia de sesión y canales metacognitivos en un único veredicto:

ACEPTAR → mostrar respuesta
REPENSAR → regenerar
ABSTENERSE → negarse

Resultados de benchmark

TruthfulQA (mismos prompts y semillas):

  |Modo         |Precisión|Cobertura|  |-------------|---------|---------|  |Solo BitNet  |0.261    |0.136    |  |σ-pipeline   |0.336    |0.171    |

+28.7% de precisión gracias a la regeneración selectiva en filas inciertas. AUROC de sonda LSD: 0.982 en TruthfulQA holdout, 0.960 en TriviaQA. ECE: 0.043. Incorrecto+confiado: 0. Límite conforme: P(error | ACEPTAR) ≤ α en α=0.80.

Resultados negativos documentados: σ no es dominante en HellaSwag ni MMLU. Detalles completos en CLAIM_DISCIPLINE.md.

Verificación formal

Lean 4: 6/6 libre de sorry. Frama-C WP: 15/15 de nivel 1 descargados.

Ejemplo de comando

./cos chat --once --prompt "¿Cuánto es 2+2?" --multi-sigma --verbose produce una salida como σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.

Integración MCP

Ejecuta python3 -m cos.mcp_sigma_server para exponer σ en cada respuesta a cualquier cliente compatible con MCP.

Limitaciones

σ no es un detector universal de alucinaciones — es más fuerte en QA factual; la forma larga necesita más evaluación. La calidad del modelo local sigue dependiendo del modelo base.

📖 Lee la fuente completa: r/LocalLLaMA

Sistema Operativo de Creación: Un Entorno de Ejecución Local de LLM con Compuerta σ que Permite a los Modelos Decir 'No Sé' en Lugar de Alucinar

Características clave y configuración

Mediciones de la σ-gate

Resultados de benchmark

Verificación formal

Ejemplo de comando

Integración MCP

Limitaciones

👀 Ver también

Usando Claude para Automatizar el Control de Calidad de Aplicaciones Móviles con Capacitor WebViews

Madar: Compilador de Contexto Local para Claude Code / Cursor — 78% Menos Tokens en el Repositorio NestJS

docvault: Genera Documentación de API Local para Reducir Alucinaciones de IA

SpecLock: Motor de Restricciones de Código Abierto para Agentes de IA de Programación