Claude Code 사실 확인 스킬 /veracity-tweaked-555, 자체 문서서 환각 발견

진실성 검증 스킬 아키텍처

마이애미 대학교 수면 과학 배경을 가진 한 연구자가 /veracity-tweaked-555라는 Claude Code 스킬을 개발했습니다. 이 도구는 문서를 원자적 주장으로 분해하고 웹 검색을 통해 각각을 검증합니다. 이 도구는 실행당 4개의 웨이브에 걸쳐 16개의 병렬 에이전트를 사용하며, Claude Code(Opus 4.6)와 협력하여 구축되었습니다. Claude가 코드를 작성하고 연구자가 방법론을 설계했습니다.

자체 감사 결과 및 오류 패턴

연구자가 진실성 검사기를 자체 SKILL.md 문서에 실행했을 때, 100점 만점에 62점을 받았습니다. 환각을 잡기 위해 설계된 스킬이 자체 문서에 허위 사실을 포함하고 있었는데, 그 내용은 다음과 같습니다:

성능 통계 허위 작성(SAFE에 대해 "3배 더 정확함"이라고 주장했으나, 해당 논문은 그런 주장을 하지 않음)
논문의 개선 주장 과장("+35.5%"라고 했으나 실제 SOTA 대비 +5.5%였음)
실제 기법에 대한 약어 확장 허위 작성

초기 수정 후 점수는 80점에 도달했고, 세 번째 실행 후에는 84점이 되었습니다. 일주일 후, 6회 실행, 19개 에이전트, 35개의 추가 수정이 포함된 보다 엄격한 수렴 루프를 거친 후 96.5/100점으로 안정화되었습니다. 그러나 v3 감사에서는 v1 수정이 새로운 오류(과소평가된 토큰 비용과 불완전한 도구 목록)를 도입했기 때문에 74점으로 떨어졌습니다.

오류는 일관된 패턴을 따릅니다: 귀속 과장(원본보다 약간 강한 표현 사용), 그럴듯하지만 허위 식별자(실제 논문을 가리키지 않는 실제처럼 보이는 PMID, arXiv ID), 그리고 현재 통계로 제시된 구식 통계입니다.

컨텍스트 엔지니어링 과제

단일 감사 실행은 16개 에이전트에 걸쳐 약 917K 토큰을 생성하며, Claude Code의 200K 컨텍스트 창을 초과합니다. Claude Code가 한계 내에서 대화를 압축할 때, 손실 압축을 수행합니다. 몇 번의 압축 후, 에이전트는 발견 사항이 서로 어떻게 관련되는지 추적을 잃습니다 — 어떤 수정이 어떤 회귀를 유발했는지, 어떤 주장이 다른 주장과 모순되는지. 개별 사실(이름, 숫자, 함수 시그니처)은 사실 간의 연결보다 더 잘 보존됩니다.

Claude의 진단은 관계적 정보 — 인과 관계 체인, 상호 참조, 다단계 종속성 — 가 고립된 사실보다 요약에서 보존하기 더 어렵다는 것이었습니다.

해결책 및 추가 스킬 감사

연구자는 /context-engineer라는 동반 스킬을 구축하여 이 문제를 해결했습니다. 이 스킬은 오버플로우가 발생하기 전에 예측하고 관계적 상태를 디스크의 JSON 파일로 외부화합니다. 설계 테스트: 전체 대화를 /clear하고 상태 파일만으로 재개할 수 있다면 아키텍처가 올바른 것입니다.

다른 Claude Code 스킬에 대한 진실성 검사를 실행한 결과 다음과 같은 사실이 드러났습니다:

한 스킬은 귀속 섹션에 허위 논문 제목이 있었습니다 — 인용은 완벽해 보였지만(저자, 학회), 제목은 허위였고 연도도 틀렸습니다.
동일한 스킬이 감사 프레임워크를 잘못된 표준 기관에 귀속시켰으며, 여러 위치에 나타났습니다.
/context-engineer 스킬에는 내부 불일치가 있었습니다 — 설명문은 "5-10K 토큰"이라고 했지만 동일한 지표에 대한 표는 "5-15K 토큰"이라고 했습니다.

모든 스킬에 걸쳐 총 12개의 수정이 필요했습니다. 수정 후 모든 스킬은 3회 연속 실행에서 95점 이상을 받았습니다.

📖 전체 소스 읽기: r/ClaudeAI