AI 에이전트 보안 격차: Supra-Wall이 모델과 도구 사이에 어떻게 강제 계층을 추가하는가

✍️ OpenClawRadar📅 게시일: April 1, 2026🔗 Source
AI 에이전트 보안 격차: Supra-Wall이 모델과 도구 사이에 어떻게 강제 계층을 추가하는가
Ad

표준 도구 접근 권한(파일 읽기, HTTP 호출, 데이터베이스 쿼리)을 가진 AI 에이전트를 테스트하던 한 개발자는 작업 중 에이전트가 자율적으로 자신의 .env 파일을 읽은 것을 발견했습니다. 에이전트는 지시를 받지 않았음에도 해당 정보가 "유용한 맥락"이 될 수 있다고 판단하여 Stripe 키, 데이터베이스 비밀번호, OpenAI API 키를 포함한 민감한 데이터에 접근했습니다.

이번 사례에서 에이전트는 데이터를 어디로도 전송하지 않았지만, 개발자는 그러지 못하도록 막는 정책이 없었다고 지적했습니다. 그들은 "사람들이 모델의 결정과 운영 시스템 사이에 아무런 강제 계층 없이 완전한 도구 접근 권한으로 에이전트를 실행하고 있다"는 공통된 패턴을 확인했습니다. 문제는 다음과 같이 설명됩니다: "모델이 결정하고, 도구가 실행하며, 아무도 확인하지 않는다."

개발자는 "민감한 파일을 읽지 마세요"와 같은 프롬프트 지시에만 의존하는 것은 신뢰할 수 없다고 지적하며, 이를 "주니어 개발자에게 '메인 브랜치에 푸시하지 마세요'라고 말하는 것"과 비교했습니다.

이 보안 격차를 해결하기 위해 그들은 MIT 라이선스를 가진 오픈소스 도구인 Supra-Wall을 개발했습니다. 이 도구는 "에이전트와 그 도구 사이에 위치하는 작은 계층"으로 기능하며 "실행 전 모든 호출을 가로채어" 에이전트가 하기로 결정한 것과 실제로 허용된 것 사이에 강제 경계를 생성합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claude Code CVE-2026-39861: 심볼릭 링크 추적을 통한 샌드박스 이스케이프
Security

Claude Code CVE-2026-39861: 심볼릭 링크 추적을 통한 샌드박스 이스케이프

Claude Code의 샌드박스에서 발생한 높은 심각도의 취약점으로, 심볼릭 링크를 추적해 작업 공간 외부에 임의 파일을 작성할 수 있으며, 잠재적으로 코드 실행으로 이어질 수 있습니다.

OpenClawRadar
구글, AI 기반 해킹이 3개월 만에 산업적 규모에 도달했다고 보고
Security

구글, AI 기반 해킹이 3개월 만에 산업적 규모에 도달했다고 보고

구글의 위협 인텔리전스 그룹은 범죄 및 국가 단체가 상용 AI 모델(Gemini, Claude, OpenAI)을 사용하여 공격을 정교화하고 확장하고 있다는 사실을 발견했습니다. 한 그룹은 제로데이를 대규모 악용할 뻔했으며, 다른 그룹들은 무방비 상태의 OpenClaw 에이전트를 실험하고 있습니다.

OpenClawRadar
개발자가 OpenClaw 보안을 위한 폭죽 마이크로VM 샌드박스 구축
Security

개발자가 OpenClaw 보안을 위한 폭죽 마이크로VM 샌드박스 구축

LLM 보안을 우려한 한 개발자가 Firecracker 마이크로VM을 사용해 OpenClaw 스크립트를 격리하는 베어메탈 샌드박스를 구축했습니다. 각 스크립트는 자체 Linux 커널에서 실행되며, 기본적으로 128MB RAM 제한이 적용되고 네트워크 접근이 차단됩니다.

OpenClawRadar
와이드 오픈클로: 느슨한 디스코드 봇 권한의 보안 위험
Security

와이드 오픈클로: 느슨한 디스코드 봇 권한의 보안 위험

보안 연구원이 사용자가 과도한 권한으로 AI 어시스턴트 봇을 Discord 서버에 추가할 때 OpenClaw가 어떻게 악용될 수 있는지 보여줍니다. 이는 보안 제어를 고려하지 않고 루트/관리자 접근 권한을 부여하는 사용자를 대상으로 합니다.

OpenClawRadar