Sistema Operativo de Creación: Un Entorno de Ejecución Local de LLM con Compuerta σ que Permite a los Modelos Decir 'No Sé' en Lugar de Alucinar

Creation OS es un runtime de IA local-first que envuelve LLMs locales con una σ-gate — una capa de medición que puntúa cada salida a través de múltiples canales de incertidumbre y decide ACEPTAR, REPENSAR o ABSTENERSE. El objetivo es permitir que los modelos locales se nieguen a responder cuando están inseguros, en lugar de alucinar.
Características clave y configuración
- Compatible con BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B y cualquier modelo GGUF.
- Funciona en un MacBook Air M4 8GB como máquina principal — sin nube, sin API, nada sale del dispositivo.
- Instalación:
git clone https://github.com/spektre-labs/creation-osluegocd creation-os && bash scripts/quickstart.sh - Ruta completa con pesos locales:
./scripts/install.shluego./cos chat
Mediciones de la σ-gate
La compuerta combina logprob, entropía, perplejidad, consistencia, σ semántica, τ conforme, coherencia de sesión y canales metacognitivos en un único veredicto:
- ACEPTAR → mostrar respuesta
- REPENSAR → regenerar
- ABSTENERSE → negarse
Resultados de benchmark
TruthfulQA (mismos prompts y semillas):
|Modo |Precisión|Cobertura| |-------------|---------|---------| |Solo BitNet |0.261 |0.136 | |σ-pipeline |0.336 |0.171 |
+28.7% de precisión gracias a la regeneración selectiva en filas inciertas. AUROC de sonda LSD: 0.982 en TruthfulQA holdout, 0.960 en TriviaQA. ECE: 0.043. Incorrecto+confiado: 0. Límite conforme: P(error | ACEPTAR) ≤ α en α=0.80.
Resultados negativos documentados: σ no es dominante en HellaSwag ni MMLU. Detalles completos en CLAIM_DISCIPLINE.md.
Verificación formal
Lean 4: 6/6 libre de sorry. Frama-C WP: 15/15 de nivel 1 descargados.
Ejemplo de comando
./cos chat --once --prompt "¿Cuánto es 2+2?" --multi-sigma --verbose produce una salida como σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.
Integración MCP
Ejecuta python3 -m cos.mcp_sigma_server para exponer σ en cada respuesta a cualquier cliente compatible con MCP.
Limitaciones
σ no es un detector universal de alucinaciones — es más fuerte en QA factual; la forma larga necesita más evaluación. La calidad del modelo local sigue dependiendo del modelo base.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

Usando Claude para Automatizar el Control de Calidad de Aplicaciones Móviles con Capacitor WebViews
Un desarrollador creó un sistema automatizado de control de calidad usando Claude para probar una aplicación móvil basada en Capacitor en Android e iOS. El enfoque utiliza el Protocolo de Herramientas de Desarrollo de Chrome para WebViews de Android y capturas de pantalla para análisis visual, con una configuración de Android que toma 90 minutos frente a más de 6 horas para iOS.

Madar: Compilador de Contexto Local para Claude Code / Cursor — 78% Menos Tokens en el Repositorio NestJS
Madar es un compilador de contexto local de código abierto para agentes de codificación. En un repositorio NestJS + BullMQ (~800 archivos), redujo los tokens de entrada de Claude Code en un 78% y el costo en un 63% para una tarea de explicación. Solo gráficos con alcance.

docvault: Genera Documentación de API Local para Reducir Alucinaciones de IA
docvault es una herramienta que genera referencias de API en formato markdown a partir del código fuente para ayudar a Claude y otros LLMs a dejar de alucinar firmas de funciones. Funciona para crates de Rust y paquetes de Python, genera un archivo markdown de dos niveles e incluye un plugin de Claude Code para operación sin intervención manual.

SpecLock: Motor de Restricciones de Código Abierto para Agentes de IA de Programación
SpecLock es un servidor MCP que aplica activamente restricciones a agentes de codificación con IA como Claude Code. Bloquea las violaciones con advertencias de conflicto semántico utilizando expansión de sinónimos, detección de negación y marcado de acciones destructivas.