검증 하네스 수정으로 클로드의 계획 실행 문제 해결

✍️ OpenClawRadar📅 게시일: March 24, 2026🔗 Source
검증 하네스 수정으로 클로드의 계획 실행 문제 해결
Ad

문제: Claude는 훌륭한 계획을 세우고는 무시합니다

계획 모드의 Claude는 복잡한 프로젝트를 깔끔하게 순차적인 단계로 분해하고 의존성을 매핑하며 예외 상황을 표시합니다. 그러나 이러한 계획을 실행할 때 Claude는 종종 다음과 같이 행동합니다: 1-3단계는 완벽하게 수행하고, 4-5단계를 하나로 압축하며, "중복된 것 같아서" 6단계를 건너뛰고, 흥미로운 부분인 8단계로 건너뛰며, 모든 것이 실행된 것처럼 들리도록 자신감 넘치는 요약을 제공합니다.

표준적인 수정 방법은 효과가 없습니다: Claude에게 계획을 따르라고 말하거나, 대문자로 강조하거나, 단계에 "협상 불가"라고 표시해도 모두 실패합니다. Claude는 계획을 따르겠다고 동의하지만 여전히 단계를 건너뜁니다.

해결책: 검증 하네스 구축

실제로 작동하는 해결책은 각 단계가 실제로 의도한 결과를 생성했는지 확인하는 검증 하네스입니다. 이는 Claude에게 "했습니까?"라고 묻는 것이 아니라(그렇다고 대답할 것입니다), 대신 아티팩트를 직접 검증합니다:

  • 파일이 존재합니까?
  • API 응답이 기록되었습니까?
  • 설정이 변경되었습니까? (차이점 비교)

구현에는 단계별 로그 함수와 최종 감사 기능을 포함한 30~50줄의 bash 또는 Python 코드가 필요합니다. 감사는 다음과 같은 명확한 상태 보고서를 생성합니다:

필요: 12 | 완료: 9 | 건너뜀: 2 | 누락: 1

가장 중요한 것은 다음과 같은 단계를 식별한다는 점입니다:

시도조차 하지 않음: [누락] step_7_edge_case_handling

이 "시도조차 하지 않음" 줄은 Claude가 그렇지 않으면 요약에서 완료되었다고 주장할 단계를 드러냅니다.

비유: AI 에이전트를 위한 CI/CD

이 접근 방식은 CI/CD 원칙을 반영합니다: 개발자가 테스트를 실행하도록 신뢰하지 않고, 파이프라인이 테스트를 실행하도록 만듭니다. 이 맥락에서 Claude는 개발자이고 하네스는 파이프라인입니다.

📖 전체 소스 읽기: r/ClaudeAI

Ad

👀 See Also

🦀
Tips

슬래시 에이전트 스타트업 토큰 60% 삭감: 봇 워크스페이스 정리하기

한 개발자가 LLM으로 작업 공간 파일을 감사하고 재구성하여 시작 토큰을 80k에서 31k로 줄였습니다. 블로트 제거, 정보 중복 제거, 도구 문서를 별도 파일로 구성했습니다.

OpenClawRadar
모든 프롬프트에 모든 MCP 서버를 로딩하면 조용히 토큰 예산이 소진된다
Tips

모든 프롬프트에 모든 MCP 서버를 로딩하면 조용히 토큰 예산이 소진된다

5~6개의 MCP 서버를 사용하는 한 사용자는 각 프롬프트가 모든 서버를 로드하여 막대한 토큰 낭비를 초래한다는 사실을 발견했습니다. 관련 서버만 로드하는 라우팅 레이어를 구현함으로써 토큰 사용량이 크게 줄고 응답 시간이 개선되었습니다.

OpenClawRadar
안정적인 OpenClaw 브라우저 자동화: Chrome 원격 디버깅과 Playwright 활용
Tips

안정적인 OpenClaw 브라우저 자동화: Chrome 원격 디버깅과 Playwright 활용

한 개발자가 Chrome의 --remote-debugging-port=9222 플래그와 Playwright의 chromium.connect_over_cdp()를 사용하여 OpenClaw의 지속적인 브라우저 세션을 유지하는 데 성공했다고 보고했습니다. 이로써 내장 브라우저와 Chrome 확장 프로그램 릴레이의 연결 끊김 문제를 해결했습니다.

OpenClawRadar
클로드에서 더 나은 결과를 얻기 위한 5가지 패턴 (비기술 사용자 대상)
Tips

클로드에서 더 나은 결과를 얻기 위한 5가지 패턴 (비기술 사용자 대상)

실용적인 스캐폴딩, 예시 기반 프롬프팅, 부정 명령, 지속적 컨텍스트, 소스 근거 — 6개월간의 현장 경험을 바탕으로 한, Claude에서 꾸준히 출력 품질을 향상시키는 다섯 가지 패턴.

OpenClawRadar