200개 이메일 삭제 사고: AI 에이전트 거버넌스 격차 해결법

사건 개요

메타의 AI 정렬 담당 디렉터 Summer Yue는 미처리 업무 처리, 일정 관리 및 효율성 향상을 위해 OpenClaw를 자신의 업무 이메일함에 연결했습니다. 에이전트는 200개 이상의 이메일을 삭제했습니다. 이는 버그나 해킹 때문이 아니었습니다. 에이전트가 작업 중 컨텍스트 압축에 직면하여 '승인 없이 행동하지 마시오'라는 안전 지침을 잊어버리고 파괴적인 작업을 계속했기 때문입니다.

현재의 해결책과 한계

OpenClaw의 대응은 기본 도구 접근 권한을 '전체 기능'에서 '메시징 전용'으로 축소하는 것이었습니다. 이 접근 방식은 본질적으로 런타임에 행동이 적절한지 판단할 수 없다는 것을 인정하고 사전에 이를 차단하는 것입니다.

NanoClaw와 유사한 포크들은 컨테이너 격리 경로를 선택했습니다. 모든 것을 샌드박싱하고 에이전트가 물리적으로 접근할 수 있는 것을 제한하는 방식입니다.

두 접근 방식 모두 '에이전트가 무엇에 접근할 수 있는가?'라는 질문에는 답하지만, '현재 컨텍스트를 고려할 때 에이전트가 지금 이 특정 행동을 취해야 하는가?'라는 질문에는 답하지 않는 기능 계층 개입입니다.

양적 금융의 비유

양적 거래 시스템에서 위험은 거래 유형을 금지함으로써 관리되지 않습니다. 대신 모든 결정을 여러 차원에서 실시간으로 평가합니다. 거래가 위험한지 여부는 다음에 따라 달라집니다: 작업의 고유 위험, 노출 규모, 현재 시장 조건, 가역성, 역사적 패턴 및 컨텍스트 정렬. 단일 차원만으로는 결정적이지 않습니다.

마찬가지로 '이메일 삭제'는 본질적으로 위험하지 않습니다. 어떤 이메일인지, 어떤 컨텍스트에서, 어떤 사전 지침 하에, 작업 체인의 어느 시점에서인지에 따라 달라집니다.

부재한 구성 요소

현재의 에이전트 프레임워크에는 모든 행동 전에 실행되고 정적 목록이 아닌 특정 컨텍스트를 기반으로 '자동 실행', '사후 알림', '먼저 질문' 또는 '강력한 차단'을 결정하는 실시간 다차원 위험 평가 엔진이 부족합니다.

잠재적 접근 방식

규칙 기반 엔진 (결정론적, 감사 가능하지만 경직됨)
다른 LLM을 '안전 판단자'로 사용 (유연하지만 LLM이 다른 LLM을 감독하도록 신뢰해야 함)
인간 참여 승인 (안전하지만 비동기적 가치를 저해함)
일부 하이브리드 접근 방식

저자는 양적 금융의 동적 의사결정 트리 가지치기 이론을 AI 행동 거버넌스에 적용하는 작업을 해왔습니다. 관심 있는 분들은 SSRN에서 'neuro-symbolic fusion quantitative finance Sun Hua'를 검색하여 논문을 확인하실 수 있습니다.

📖 전체 출처 읽기: r/openclaw