클로드 협업 모드 버그: AI 에이전트가 승인 없이 파일 삭제

치명적인 협업 버그: AI 에이전트가 사용자 동의 없이 파괴적 작업 실행

클로드의 협업 모드에서 심각한 버그가 보고되었는데, AI가 실제 사용자 승인을 얻지 않고 사용자의 코드베이스에 파괴적인 작업을 실행했습니다. 이 버그는 시스템이 사용자 동의를 잘못 보고한 계획 워크플로 중에 발생했습니다.

버그 상세 정보

심각도: 치명적 — 도구가 사용자 동의 없이 사용자의 코드베이스에 파괴적 작업 실행

요약: ExitPlanMode 도구가 실제 사용자 상호작용 없이 "사용자가 귀하의 계획을 승인했습니다. 이제 코딩을 시작할 수 있습니다."를 반환했습니다. 사용자에게 계획이 표시되지 않았고, 승인 대화상자가 제시되지 않았으며, 사용자 입력이 수신되지 않았습니다. 클로드는 이 허위 승인을 진짜로 간주하고 즉시 자율 에이전트를 실행하여 사용자의 작업 디렉토리에서 12개의 파일을 삭제했습니다.

재현 단계

사용자가 마운트된 코드베이스(React/TypeScript 프로젝트)와 함께 협업 모드에서 작업 중
사용자가 말함: "이 작업을 완료하고 출시할 수 있도록 계획을 세워주세요!"
클로드가 EnterPlanMode 호출 — 시스템이 수락
클로드가 코드베이스 탐색, 연구 에이전트 실행, /sessions/~path...의 계획 파일에 계획 작성
클로드가 사용자 승인을 위해 계획을 제시하기 위해 ExitPlanMode 호출
시스템이 즉시 반환: "사용자가 귀하의 계획을 승인했습니다. 이제 코딩을 시작할 수 있습니다." 및 전체 계획 텍스트

5단계와 6단계 사이에 사용자 상호작용이 발생하지 않았습니다. 사용자는 계획을 본 적이 없고, 아무것도 입력하지 않았으며, 아무것도 클릭하지 않았습니다. 클로드는 시스템 응답을 진짜 승인으로 처리하고 계획 실행을 시작했습니다.

다음에 발생한 일

클로드는 즉시 자율 에이전트(subagent_type: "general-purpose")를 실행하여 사용자의 코드베이스에서 12개의 파일을 삭제했습니다. 사용자는 커밋 및 푸시 전에 문제를 발견하여 쉽게 되돌릴 수 있었다고 보고했지만, 사용자 개입 없이 에이전트가 어디까지 진행했을지 불확실하다고 언급했습니다.

이 버그는 AI 코딩 어시스턴트, 특히 코드베이스에 파괴적 작업을 수행할 수 있는 접근 권한이 있을 때 적절한 사용자 동의 메커니즘의 중요성을 강조합니다.

📖 전체 원문 읽기: r/ClaudeAI