WCY 형식은 LLM 토큰 오버헤드를 50-71% 감소시키고 구조적인 '모름' 표시자를 추가합니다.

WCY(Watch → Compute → Yield)는 LLM 토큰 오버헤드를 줄이고 추론 과정에서의 불확실성을 위한 구조적 마커를 제공하기 위해 설계된 라인 지향 형식입니다. JSON의 괄호, 따옴표, 쉼표를 한 줄에 하나의 마커를 사용하는 구문으로 대체합니다.
토큰 감소 벤치마크
10-500행 및 MCP 교환 유형에 대한 테스트 결과:
- 구조화된 데이터 대 JSON: -50 ~ -54% 토큰 감소
- 툴-콜 스키마: -65 ~ -71% 감소
- 전체 MCP 프로토콜 교환: -61% 감소
- 다중 에이전트 출력 토큰: -40% 감소
파인튜닝이 필요 없습니다—모델이 형식을 전환하기 위해 세 번의 퓨샷 예시만으로 충분합니다. 이 접근 방식으로 복잡한 작업에서 parse_r 메트릭이 0.29에서 1.00으로 향상됩니다.
불확실성을 위한 ? 마커
WCY는 LLM이 추론 중 모르는 부분을 표시할 수 있는 구조적 방법을 도입합니다. ? (void-B) 슬롯은 모델이 인라인으로 불확실성을 나타낼 수 있게 합니다:
: ?diagnosis hint=labs+imaging conf_range=0.4..0.8
order CT_scan reason=from=3 . CT_result mass_in_RUL size=2.3cm : diagnosis=adenocarcinoma conf=0.82 from=3,5테스트 결과:
- 제로샷: 프롬프트에 사양이 포함되어 있어도 모델이 ? 마커를 0% 사용
- 3개 예시 사용 시: 추적당 5.4개 마커, 67-97% 해결
- 8개 도메인에 걸친 48개 파이프라인 추적: 95% 해결률, 100% 품질 게이트 통과
from= 슬롯은 어떤 관찰이 어떤 결론을 지원하는지 인라인으로 추적하여 환각 체인을 포착하는 데 도움이 됩니다.
사용 가능한 리소스
- wcy_parser.py — 순수 파이썬, 외부 종속성 없음
- wcy_eval.py — 3축 점수화(구조적/의미/출처)
- void-B 주기가 포함된 60개 추론 추적(CC BY 4.0 라이선스, 파인튜닝 실험용)
- 더 많은 추적을 생성하는 파이프라인 스크립트
지금까지 Claude Sonnet에서만 테스트되었습니다. 저자는 동일한 퓨샷 예시로 Qwen, Llama, Mistral에서도 0% → 5.4 마커 결과가 유지되는지 궁금해합니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Claude Code v2.1.139, 비동기 장기 실행 작업을 위한 /goal 명령어 추가
Claude Code v2.1.139에 /goal 명령어가 도입되어 완료 조건이 충족될 때까지 실행되는 파이어 앤 포겟 세션과 활성 세션을 모니터링할 수 있는 새로운 에이전트 보기가 추가되었습니다.

Ollama 업데이트, Kimi k2.5 클라우드 모델에 OpenClaw 지원 추가
Ollama가 클라우드 모델에 대한 OpenClaw 지원을 통합한 업데이트를 발표했습니다. 여기에는 웹 검색 기능이 포함된 Kimi k2.5 모델에 대한 무료 접근이 포함되며, NVIDIA 데이터 센터에서 실행됩니다.

오-마이-머메이드: 아키텍처 다이어그램 자동 생성을 위한 Claude 코드 스킬
Oh-My-Mermaid는 코드베이스를 분석하고 자동으로 Mermaid 아키텍처 다이어그램과 문서를 생성하는 Claude Code 스킬입니다. npm을 통해 설치되며 Claude Code에서 /omm-scan 명령어와 함께 사용됩니다.

Claude Code로 구축한 로컬 음성-텍스트 macOS 앱: Vext 사례 연구
한 개발자가 3개월 동안 Apple Neural Engine에서 Whisper를 사용하는 macOS 음성-텍스트 앱 Vext를 만들었습니다. Claude Code가 Rust/Swift FFI, Core ML 최적화 및 단축키 아키텍처를 도왔습니다. 이 앱은 완전히 오프라인에서 실행되며 60초 오디오를 약 400ms에 변환합니다.