Claude와 평가 하네스를 사용하여 환각을 감지하는 Obsidian용 에이전틱 RAG 구축하기

r/ClaudeAI의 한 개발자가 Obsidian 볼트 위에 에이전틱 RAG 시스템을 구축하여 Claude가 엔지니어링 PDF의 질문에 답변할 때 주간 토큰 한도를 초과하지 않도록 했습니다. 워크플로우: 엔지니어링 PDF를 마크다운으로 변환하고, 이를 Obsidian 볼트에 넣은 후, 저렴한 에이전트(Kimi K2.5)를 사용하여 볼트에서 BM25 검색을 수행하고, Claude는 전체 책 대신 관련 청크만 보게 합니다. 이렇게 하여 질문당 토큰 비용이 약 50k에서 5k로 줄었습니다.
새로운 문제: 에이전트가 때때로 자신 있게 틀린 답변을 했습니다. 예를 들어, 정식 구절이 4권 5장에 있는데 "마르쿠스 아우렐리우스가 9권 3장에서 죽음에 대해 썼다"고 말하는 식입니다. 충분히 그럴듯해서 수동 검증이 필요했습니다. 그래서 개발자는 Claude Sonnet 4.6을 LLM 평가자로 사용하는 평가 하네스를 구축했는데, 의도적으로 Kimi 에이전트와 다른 모델 제품군을 선택하여 자신의 출력을 평가하지 않도록 했습니다.
초기 루브릭은 0.7 "얇지만 틀리지 않음"을 포함한 네 개의 버킷이 있었습니다. 수동 채점할 때, 인간 채점자(동일한 개발자, 블라인드, 다른 날짜)도 경계선에 있는 모든 것을 0.7로 처리했습니다. 일치율이 괜찮아 보였지만 실제로는 공유 편향을 측정한 것이었습니다. 네 번의 루브릭 반복 후, 작업 버전은 중간 버킷을 완전히 없애고 한 가지 특정 경우에 대해 0.9 버킷을 추가했습니다: "정답이지만 잘못된 청크". 이 경우 이전에는 거짓 양성(1.0이 검색 실패를 감춤) 또는 거짓 음성(0.4가 정답을 처벌)을 유발했습니다. 이 분할로 문제가 해결되었습니다.
새로운 루브릭에서 18개 행에 대한 평가자-인간 일치율이 7/18(39%)에서 17/18(94%)로 향상되었습니다. 주의사항: 18개 행은 작은 샘플이고, 단일 평가자(평가자 간 신뢰도 미확립)이며, BM25는 새롭지 않지만(질의/문서 어휘 중복이 높은 기술/문학 코퍼스에서 잘 작동), 한 코퍼스를 33pp 향상시킨 동일한 청킹 기법이 동일한 평가에서 다른 코퍼스를 17pp 퇴보시켰습니다. 하네스가 첫 번째 실행에서 이를 잡아냈습니다.
4회에 걸친 루브릭 개선 이야기, 보정 워크시트 및 부정적인 결과 메모가 포함된 전체 글은 Medium에 있습니다. 저자는 RAG/에이전트 설정에서 Claude Sonnet을 평가자로 사용하는 다른 사람들이 어떻게 하며, 어떤 루브릭을 최종 선택했고, 단일 인간 평가자로 평가자 간 신뢰도를 어떻게 처리하는지 궁금해합니다.
📖 전체 출처 읽기: r/ClaudeAI
👀 See Also

LivingAgents.ai: Claude API를 활용한 웹 기반 AI 에이전트 시뮬레이션
LivingAgents.ai는 Claude API로 구동되는 웹 기반 시뮬레이션으로, 각 에이전트가 채집, 거래, 제작, 공격, 번식, 영구적 사망 등의 행동을 수행하며, 모든 행동은 실제 LLM 호출이 필요합니다.

Mandala v0.3: 물류 원격 계측 데이터를 에이전트 추론을 위한 OpenTelemetry 스팬으로 통합하는 오픈소스 비동기 런타임
Mandala v0.3은 Samsara, Descartes, Vizion, FMCSA의 원격 측정 데이터를 웹훅으로 수집하고, 이벤트를 OpenTelemetry 스팬으로 내보내며, LLM 에이전트를 위한 MCP 도구를 통해 데이터를 노출하는 오픈소스 비동기 런타임입니다.
니들: FFN 전혀 없이 구축된 2600만 파라미터 도구 호출 모델
Needle은 MLP가 없는 26M 파라미터 함수 호출 모델로, 소비자 기기에서 6000 tok/s 프리필과 1200 tok/s 디코드를 달성합니다. 단일 호출 도구 호출에서 FunctionGemma-270M, Qwen-0.6B, Granite-350M, LFM2.5-350M을 능가합니다.

SuperContext: AI 코딩 에이전트를 위한 영구 메모리 프레임워크
SuperContext는 대규모 지침 문서 대신 구조화된 대상 파일을 통해 Claude와 같은 AI 코딩 도구에 지속적인 메모리를 제공하는 오픈소스 프레임워크입니다. 수동 설정 없이 약 10분 만에 시스템을 구축하는 실행 가능한 프롬프트를 포함하고 있습니다.