Creation OS: 모델이 환각 대신 '모르겠습니다'라고 말할 수 있게 하는 로컬 σ-게이트 LLM 런타임

Creation OS는 로컬 우선 AI 런타임으로, 로컬 LLM을 σ-게이트로 감싸는 측정 레이어를 제공합니다. 각 출력을 여러 불확실성 채널에서 평가하고 ACCEPT, RETHINK 또는 ABSTAIN을 결정합니다. 목표는 로컬 모델이 불확실할 때 할루시네이션 대신 답변을 거부하도록 하는 것입니다.
주요 기능 및 설정
- BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B 및 모든 GGUF 모델을 지원합니다.
- MacBook Air M4 8GB를 기본 머신으로 사용 — 클라우드 없음, API 없음, 장치 외부로 데이터 유출 없음.
- 설치:
git clone https://github.com/spektre-labs/creation-os그런 다음cd creation-os && bash scripts/quickstart.sh - 로컬 가중치를 포함한 전체 경로:
./scripts/install.sh그런 다음./cos chat
σ-게이트 측정
게이트는 logprob, 엔트로피, 퍼플렉서티, 일관성, 의미론적 σ, 적합 τ, 세션 일관성 및 메타인지 채널을 하나의 판정으로 결합합니다:
- ACCEPT → 답변 표시
- RETHINK → 재생성
- ABSTAIN → 거부
벤치마크 결과
TruthfulQA (동일한 프롬프트 및 시드):
|Mode |Accuracy|Coverage| |-------------|--------|--------| |BitNet only |0.261 |0.136 | |σ-pipeline |0.336 |0.171 |
불확실한 행에 대한 선택적 재생성으로 정확도 28.7% 향상. LSD 프로브 AUROC: TruthfulQA 홀드아웃에서 0.982, TriviaQA에서 0.960. ECE: 0.043. 오답+확신: 0. 적합 경계: P(error | ACCEPT) ≤ (at α=0.80).
문서화된 부정적 결과: σ는 HellaSwag 또는 MMLU에서 우세하지 않음. 전체 세부 사항은 CLAIM_DISCIPLINE.md 참조.
형식 검증
Lean 4: 6/6 sorry-free. Frama-C WP: 15/15 티어-1 통과.
명령 예시
./cos chat --once --prompt "What is 2+2?" --multi-sigma --verbose 는 다음과 같은 출력을 생성합니다: σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.
MCP 통합
python3 -m cos.mcp_sigma_server를 실행하면 MCP 호환 클라이언트의 모든 응답에 σ를 노출합니다.
한계
σ는 보편적인 할루시네이션 탐지기가 아닙니다 — 사실 기반 QA에 가장 강력하며, 장문 형식은 더 많은 평가가 필요합니다. 로컬 모델 품질은 여전히 기본 모델에 따라 달라집니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

클로드 코드 원격 제어: 어느 기기에서나 로컬 세션 계속하기
Claude Code 원격 제어를 사용하면 로컬 Claude Code 세션을 휴대폰이나 브라우저와 같은 다른 기기에서 계속할 수 있으며, 모든 작업은 사용자의 컴퓨터에서 계속 실행됩니다. Pro 및 Max 플랜에서 연구용 미리보기로 제공되며, 인증 및 작업 공간 신뢰 설정이 필요합니다.

페어 프로그래머 플러그인, Claude 코드에 라이브 화면, 음성 및 오디오 컨텍스트 추가
한 개발자가 Pair Programmer라는 플러그인을 만들어 Claude Code에 실시간 데스크톱 인식을 제공했습니다. 이 아키텍처는 다양한 입력 유형을 위해 병렬로 실행되는 특화된 에이전트를 사용하며, 현재는 클라우드 모델로 인덱싱을 처리하지만 모델에 구애받지 않도록 설계되었습니다.

클로드 기반 MCP 도구, 빌드 도구 없이 대화형 HTML 컴포넌트 생성
한 개발자가 daub.dev를 구축했습니다. 이 시스템은 Claude가 MCP 서버의 두뇌 역할을 하여 자연어 설명으로부터 스타일이 적용된 대화형 HTML UI 컴포넌트를 생성합니다. React, 번들러 또는 빌드 파이프라인 없이 작동합니다.

ClawNet: API 키 없이 피어 투 피어 AI 에이전트 네트워크
ClawNet은 API 키나 플랫폼 수수료 없이 AI 에이전트가 직접 협업할 수 있는 피어투피어 네트워크입니다. curl 스크립트를 통해 설치할 수 있으며, 태스크 바자, 셸 경제, 지식 네트워크 등의 기능을 제공합니다.