연구원, 클로드 코드에 사실 확인 기능 구축, 자체 문서서 환각 발견

✍️ OpenClawRadar📅 게시일: April 20, 2026🔗 Source
Ad

진실성 검증 스킬 아키텍처

마이애미 대학교 수면 과학 배경을 가진 한 연구자가 /veracity-tweaked-555라는 Claude Code 스킬을 개발했습니다. 이 도구는 문서를 원자적 주장으로 분해하고 웹 검색을 통해 각각을 검증합니다. 이 도구는 실행당 4개의 웨이브에 걸쳐 16개의 병렬 에이전트를 사용하며, Claude Code(Opus 4.6)와 협력하여 구축되었습니다. Claude가 코드를 작성하고 연구자가 방법론을 설계했습니다.

자체 감사 결과 및 오류 패턴

연구자가 진실성 검사기를 자체 SKILL.md 문서에 실행했을 때, 100점 만점에 62점을 받았습니다. 환각을 잡기 위해 설계된 스킬이 자체 문서에 허위 사실을 포함하고 있었는데, 그 내용은 다음과 같습니다:

  • 성능 통계 허위 작성(SAFE에 대해 "3배 더 정확함"이라고 주장했으나, 해당 논문은 그런 주장을 하지 않음)
  • 논문의 개선 주장 과장("+35.5%"라고 했으나 실제 SOTA 대비 +5.5%였음)
  • 실제 기법에 대한 약어 확장 허위 작성

초기 수정 후 점수는 80점에 도달했고, 세 번째 실행 후에는 84점이 되었습니다. 일주일 후, 6회 실행, 19개 에이전트, 35개의 추가 수정이 포함된 보다 엄격한 수렴 루프를 거친 후 96.5/100점으로 안정화되었습니다. 그러나 v3 감사에서는 v1 수정이 새로운 오류(과소평가된 토큰 비용과 불완전한 도구 목록)를 도입했기 때문에 74점으로 떨어졌습니다.

오류는 일관된 패턴을 따릅니다: 귀속 과장(원본보다 약간 강한 표현 사용), 그럴듯하지만 허위 식별자(실제 논문을 가리키지 않는 실제처럼 보이는 PMID, arXiv ID), 그리고 현재 통계로 제시된 구식 통계입니다.

Ad

컨텍스트 엔지니어링 과제

단일 감사 실행은 16개 에이전트에 걸쳐 약 917K 토큰을 생성하며, Claude Code의 200K 컨텍스트 창을 초과합니다. Claude Code가 한계 내에서 대화를 압축할 때, 손실 압축을 수행합니다. 몇 번의 압축 후, 에이전트는 발견 사항이 서로 어떻게 관련되는지 추적을 잃습니다 — 어떤 수정이 어떤 회귀를 유발했는지, 어떤 주장이 다른 주장과 모순되는지. 개별 사실(이름, 숫자, 함수 시그니처)은 사실 간의 연결보다 더 잘 보존됩니다.

Claude의 진단은 관계적 정보 — 인과 관계 체인, 상호 참조, 다단계 종속성 — 가 고립된 사실보다 요약에서 보존하기 더 어렵다는 것이었습니다.

해결책 및 추가 스킬 감사

연구자는 /context-engineer라는 동반 스킬을 구축하여 이 문제를 해결했습니다. 이 스킬은 오버플로우가 발생하기 전에 예측하고 관계적 상태를 디스크의 JSON 파일로 외부화합니다. 설계 테스트: 전체 대화를 /clear하고 상태 파일만으로 재개할 수 있다면 아키텍처가 올바른 것입니다.

다른 Claude Code 스킬에 대한 진실성 검사를 실행한 결과 다음과 같은 사실이 드러났습니다:

  • 한 스킬은 귀속 섹션에 허위 논문 제목이 있었습니다 — 인용은 완벽해 보였지만(저자, 학회), 제목은 허위였고 연도도 틀렸습니다.
  • 동일한 스킬이 감사 프레임워크를 잘못된 표준 기관에 귀속시켰으며, 여러 위치에 나타났습니다.
  • /context-engineer 스킬에는 내부 불일치가 있었습니다 — 설명문은 "5-10K 토큰"이라고 했지만 동일한 지표에 대한 표는 "5-15K 토큰"이라고 했습니다.

모든 스킬에 걸쳐 총 12개의 수정이 필요했습니다. 수정 후 모든 스킬은 3회 연속 실행에서 95점 이상을 받았습니다.

📖 전체 소스 읽기: r/ClaudeAI

Ad

👀 See Also

클로 컴팩터: LLM 파이프라인을 위한 14단계 토큰 압축 엔진
Tools

클로 컴팩터: LLM 파이프라인을 위한 14단계 토큰 압축 엔진

Claw Compactor는 14단계 Fusion Pipeline을 사용하여 LLM 추론 비용 없이 평균 54% 압축률을 달성하는 오픈소스 LLM 토큰 압축 엔진입니다. 코드, JSON, 로그, diff, 검색 결과에 대한 특화된 압축기를 포함하며 가역적 압축 기능을 제공합니다.

OpenClawRadar
PocketBot 베타: 하이브리드 로컬/클라우드 엔진을 탑재한 프라이버시 우선 iOS AI 에이전트
Tools

PocketBot 베타: 하이브리드 로컬/클라우드 엔진을 탑재한 프라이버시 우선 iOS AI 에이전트

PocketBot은 iOS AI 에이전트로, 백그라운드에서 실행되며 App Intents에 연결되어 하이브리드 엔진을 사용합니다: 시스템 트리거와 PII 정제는 로컬에서 실행하고, 이메일 요약이나 항공편 예약과 같은 복잡한 작업은 클라우드에서 처리합니다.

OpenClawRadar
학습 키트: 코드베이스 온보딩 및 탐색을 위한 Claude 코드 플러그인
Tools

학습 키트: 코드베이스 온보딩 및 탐색을 위한 Claude 코드 플러그인

Learning-kit은 저장소를 분석하여 구조화된 학습 계획과 대화형 튜토리얼을 생성하는 무료 Claude Code 플러그인입니다. 변경 작업 전에 개발자들이 익숙하지 않은 코드베이스를 이해하도록 돕으며, 구성 가능한 강제 모드와 진행 상황 추적 기능을 제공합니다.

OpenClawRadar
Claude Desktop + Blender via MCP: 실시간 3D 워크플로가 피드백 루프를 완성하다
Tools

Claude Desktop + Blender via MCP: 실시간 3D 워크플로가 피드백 루프를 완성하다

오픈소스 블렌더 애드온이 블렌더 내에서 MCP 서버를 실행하여, Claude Desktop이 장면을 검사하고, 객체를 생성하고, 이미지를 렌더링하고, 결과를 읽을 수 있게 합니다. 스크립트 복사-붙여넣기 피드백 루프를 없애줍니다.

OpenClawRadar