σ-게이트 LLM 런타임: Creation OS로 환율 29% 감소

Creation OS는 로컬 우선 AI 런타임으로, 로컬 LLM을 σ-게이트로 감싸는 측정 레이어를 제공합니다. 각 출력을 여러 불확실성 채널에서 평가하고 ACCEPT, RETHINK 또는 ABSTAIN을 결정합니다. 목표는 로컬 모델이 불확실할 때 할루시네이션 대신 답변을 거부하도록 하는 것입니다.

주요 기능 및 설정

BitNet b1.58 2B-4T, Qwen3-8B Q4_K_M, Gemma 3 4B 및 모든 GGUF 모델을 지원합니다.
MacBook Air M4 8GB를 기본 머신으로 사용 — 클라우드 없음, API 없음, 장치 외부로 데이터 유출 없음.
설치: git clone https://github.com/spektre-labs/creation-os 그런 다음 cd creation-os && bash scripts/quickstart.sh
로컬 가중치를 포함한 전체 경로: ./scripts/install.sh 그런 다음 ./cos chat

σ-게이트 측정

게이트는 logprob, 엔트로피, 퍼플렉서티, 일관성, 의미론적 σ, 적합 τ, 세션 일관성 및 메타인지 채널을 하나의 판정으로 결합합니다:

ACCEPT → 답변 표시
RETHINK → 재생성
ABSTAIN → 거부

벤치마크 결과

TruthfulQA (동일한 프롬프트 및 시드):

  |Mode         |Accuracy|Coverage|  |-------------|--------|--------|  |BitNet only  |0.261   |0.136   |  |σ-pipeline   |0.336   |0.171   |

불확실한 행에 대한 선택적 재생성으로 정확도 28.7% 향상. LSD 프로브 AUROC: TruthfulQA 홀드아웃에서 0.982, TriviaQA에서 0.960. ECE: 0.043. 오답+확신: 0. 적합 경계: P(error | ACCEPT) ≤ (at α=0.80).

문서화된 부정적 결과: σ는 HellaSwag 또는 MMLU에서 우세하지 않음. 전체 세부 사항은 CLAIM_DISCIPLINE.md 참조.

형식 검증

Lean 4: 6/6 sorry-free. Frama-C WP: 15/15 티어-1 통과.

명령 예시

./cos chat --once --prompt "What is 2+2?" --multi-sigma --verbose 는 다음과 같은 출력을 생성합니다: σ_peak=0.06 action=ACCEPT route=LOCAL σ_combined=0.184 conformal@α=0.80.

MCP 통합

python3 -m cos.mcp_sigma_server를 실행하면 MCP 호환 클라이언트의 모든 응답에 σ를 노출합니다.

한계

σ는 보편적인 할루시네이션 탐지기가 아닙니다 — 사실 기반 QA에 가장 강력하며, 장문 형식은 더 많은 평가가 필요합니다. 로컬 모델 품질은 여전히 기본 모델에 따라 달라집니다.

📖 전체 출처 읽기: r/LocalLLaMA

Creation OS: 모델이 환각 대신 '모르겠습니다'라고 말할 수 있게 하는 로컬 σ-게이트 LLM 런타임

주요 기능 및 설정

σ-게이트 측정

벤치마크 결과

형식 검증

명령 예시

MCP 통합

한계

👀 See Also

NLA가 Gemma 3의 내부 활성화를 모든 토큰에 대해 읽을 수 있는 텍스트로 변환

OpenClaw SEO 감사 기능이 기술 웹사이트 분석을 위해 출시되었습니다

클로드 코드 자동 모드: 권한 생략보다 안전한 대안

Omnicoder-9B 성능 검토: 속도 대 도구 호출 문제