Sistema Operativo de Creación: Un Entorno de Ejecución Local de LLM con Compuerta σ que Permite a los Modelos Decir 'No Sé' en Lugar de Alucinar

✍️ OpenClawRadar📅 Publicado: 30 de abril de 2026🔗 Source
Sistema Operativo de Creación: Un Entorno de Ejecución Local de LLM con Compuerta σ que Permite a los Modelos Decir 'No Sé' en Lugar de Alucinar
Ad

Creation OS es un runtime de IA local-first que envuelve LLMs locales con una σ-gate — una capa de medición que puntúa cada salida a través de múltiples canales de incertidumbre y decide ACEPTAR, REPENSAR o ABSTENERSE. El objetivo es permitir que los modelos locales se nieguen a responder cuando están inseguros, en lugar de alucinar.

Características clave y configuración

  • Compatible con BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B y cualquier modelo GGUF.
  • Funciona en un MacBook Air M4 8GB como máquina principal — sin nube, sin API, nada sale del dispositivo.
  • Instalación: git clone https://github.com/spektre-labs/creation-os luego cd creation-os && bash scripts/quickstart.sh
  • Ruta completa con pesos locales: ./scripts/install.sh luego ./cos chat

Mediciones de la σ-gate

La compuerta combina logprob, entropía, perplejidad, consistencia, σ semántica, τ conforme, coherencia de sesión y canales metacognitivos en un único veredicto:

  • ACEPTAR → mostrar respuesta
  • REPENSAR → regenerar
  • ABSTENERSE → negarse
Ad

Resultados de benchmark

TruthfulQA (mismos prompts y semillas):

  |Modo         |Precisión|Cobertura|  |-------------|---------|---------|  |Solo BitNet  |0.261    |0.136    |  |σ-pipeline   |0.336    |0.171    |

+28.7% de precisión gracias a la regeneración selectiva en filas inciertas. AUROC de sonda LSD: 0.982 en TruthfulQA holdout, 0.960 en TriviaQA. ECE: 0.043. Incorrecto+confiado: 0. Límite conforme: P(error | ACEPTAR) ≤ α en α=0.80.

Resultados negativos documentados: σ no es dominante en HellaSwag ni MMLU. Detalles completos en CLAIM_DISCIPLINE.md.

Verificación formal

Lean 4: 6/6 libre de sorry. Frama-C WP: 15/15 de nivel 1 descargados.

Ejemplo de comando

./cos chat --once --prompt "¿Cuánto es 2+2?" --multi-sigma --verbose produce una salida como σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.

Integración MCP

Ejecuta python3 -m cos.mcp_sigma_server para exponer σ en cada respuesta a cualquier cliente compatible con MCP.

Limitaciones

σ no es un detector universal de alucinaciones — es más fuerte en QA factual; la forma larga necesita más evaluación. La calidad del modelo local sigue dependiendo del modelo base.

📖 Lee la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

PixelCheck: Un paquete npm que permite a los agentes de IA verificar visualmente páginas web
Herramientas

PixelCheck: Un paquete npm que permite a los agentes de IA verificar visualmente páginas web

PixelCheck es un paquete npm que permite a los agentes de IA abrir, interactuar y puntuar páginas web visualmente — sin más bucles manuales de captura de pantalla y retroalimentación.

OpenClawRadar
El benchmark MemAware muestra que la memoria del agente basado en RAG falla en la recuperación de contexto implícito.
Herramientas

El benchmark MemAware muestra que la memoria del agente basado en RAG falla en la recuperación de contexto implícito.

El benchmark MemAware evalúa si los agentes de IA pueden recuperar contexto relevante del pasado cuando los usuarios no lo solicitan explícitamente, revelando que los sistemas de memoria actuales obtienen solo un 2.8% de precisión en consultas implícitas difíciles, frente al 0.8% sin memoria.

OpenClawRadar
Contextium: Marco de Contexto Persistente de Código Abierto para Claude Code
Herramientas

Contextium: Marco de Contexto Persistente de Código Abierto para Claude Code

Contextium es un framework de repositorio git estructurado que proporciona contexto persistente para sesiones de Claude Code, utilizando un archivo CLAUDE.md como enrutador de contexto para cargar de forma diferida archivos markdown relevantes. La versión de código abierto incluye una plantilla con 6 aplicaciones de ejemplo y 27 documentos de integración.

OpenClawRadar
FFF - Fast File Finder afirma tener una ventaja de velocidad 100 veces mayor que ripgrep.
Herramientas

FFF - Fast File Finder afirma tener una ventaja de velocidad 100 veces mayor que ripgrep.

FFF (Fast File Finder) es una herramienta de búsqueda de archivos basada en web que afirma ser 100 veces más rápida que ripgrep, posicionándose como una alternativa de próxima generación a los métodos de búsqueda basados en expresiones regulares. La herramienta requiere JavaScript para funcionar y fue recientemente discutida en Hacker News con 36 puntos y 17 comentarios.

OpenClawRadar