Creation OS: 모델이 환각 대신 '모르겠습니다'라고 말할 수 있게 하는 로컬 σ-게이트 LLM 런타임

✍️ OpenClawRadar📅 게시일: April 30, 2026🔗 Source
Creation OS: 모델이 환각 대신 '모르겠습니다'라고 말할 수 있게 하는 로컬 σ-게이트 LLM 런타임
Ad

Creation OS는 로컬 우선 AI 런타임으로, 로컬 LLM을 σ-게이트로 감싸는 측정 레이어를 제공합니다. 각 출력을 여러 불확실성 채널에서 평가하고 ACCEPT, RETHINK 또는 ABSTAIN을 결정합니다. 목표는 로컬 모델이 불확실할 때 할루시네이션 대신 답변을 거부하도록 하는 것입니다.

주요 기능 및 설정

  • BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B 및 모든 GGUF 모델을 지원합니다.
  • MacBook Air M4 8GB를 기본 머신으로 사용 — 클라우드 없음, API 없음, 장치 외부로 데이터 유출 없음.
  • 설치: git clone https://github.com/spektre-labs/creation-os 그런 다음 cd creation-os && bash scripts/quickstart.sh
  • 로컬 가중치를 포함한 전체 경로: ./scripts/install.sh 그런 다음 ./cos chat

σ-게이트 측정

게이트는 logprob, 엔트로피, 퍼플렉서티, 일관성, 의미론적 σ, 적합 τ, 세션 일관성 및 메타인지 채널을 하나의 판정으로 결합합니다:

  • ACCEPT → 답변 표시
  • RETHINK → 재생성
  • ABSTAIN → 거부
Ad

벤치마크 결과

TruthfulQA (동일한 프롬프트 및 시드):

  |Mode         |Accuracy|Coverage|  |-------------|--------|--------|  |BitNet only  |0.261   |0.136   |  |σ-pipeline   |0.336   |0.171   |

불확실한 행에 대한 선택적 재생성으로 정확도 28.7% 향상. LSD 프로브 AUROC: TruthfulQA 홀드아웃에서 0.982, TriviaQA에서 0.960. ECE: 0.043. 오답+확신: 0. 적합 경계: P(error | ACCEPT) ≤ (at α=0.80).

문서화된 부정적 결과: σ는 HellaSwag 또는 MMLU에서 우세하지 않음. 전체 세부 사항은 CLAIM_DISCIPLINE.md 참조.

형식 검증

Lean 4: 6/6 sorry-free. Frama-C WP: 15/15 티어-1 통과.

명령 예시

./cos chat --once --prompt "What is 2+2?" --multi-sigma --verbose 는 다음과 같은 출력을 생성합니다: σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.

MCP 통합

python3 -m cos.mcp_sigma_server를 실행하면 MCP 호환 클라이언트의 모든 응답에 σ를 노출합니다.

한계

σ는 보편적인 할루시네이션 탐지기가 아닙니다 — 사실 기반 QA에 가장 강력하며, 장문 형식은 더 많은 평가가 필요합니다. 로컬 모델 품질은 여전히 기본 모델에 따라 달라집니다.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

클로드 코드 원격 제어: 어느 기기에서나 로컬 세션 계속하기
Tools

클로드 코드 원격 제어: 어느 기기에서나 로컬 세션 계속하기

Claude Code 원격 제어를 사용하면 로컬 Claude Code 세션을 휴대폰이나 브라우저와 같은 다른 기기에서 계속할 수 있으며, 모든 작업은 사용자의 컴퓨터에서 계속 실행됩니다. Pro 및 Max 플랜에서 연구용 미리보기로 제공되며, 인증 및 작업 공간 신뢰 설정이 필요합니다.

OpenClawRadar
페어 프로그래머 플러그인, Claude 코드에 라이브 화면, 음성 및 오디오 컨텍스트 추가
Tools

페어 프로그래머 플러그인, Claude 코드에 라이브 화면, 음성 및 오디오 컨텍스트 추가

한 개발자가 Pair Programmer라는 플러그인을 만들어 Claude Code에 실시간 데스크톱 인식을 제공했습니다. 이 아키텍처는 다양한 입력 유형을 위해 병렬로 실행되는 특화된 에이전트를 사용하며, 현재는 클라우드 모델로 인덱싱을 처리하지만 모델에 구애받지 않도록 설계되었습니다.

OpenClawRadar
클로드 기반 MCP 도구, 빌드 도구 없이 대화형 HTML 컴포넌트 생성
Tools

클로드 기반 MCP 도구, 빌드 도구 없이 대화형 HTML 컴포넌트 생성

한 개발자가 daub.dev를 구축했습니다. 이 시스템은 Claude가 MCP 서버의 두뇌 역할을 하여 자연어 설명으로부터 스타일이 적용된 대화형 HTML UI 컴포넌트를 생성합니다. React, 번들러 또는 빌드 파이프라인 없이 작동합니다.

OpenClawRadar
ClawNet: API 키 없이 피어 투 피어 AI 에이전트 네트워크
Tools

ClawNet: API 키 없이 피어 투 피어 AI 에이전트 네트워크

ClawNet은 API 키나 플랫폼 수수료 없이 AI 에이전트가 직접 협업할 수 있는 피어투피어 네트워크입니다. curl 스크립트를 통해 설치할 수 있으며, 태스크 바자, 셸 경제, 지식 네트워크 등의 기능을 제공합니다.

OpenClawRadar