AI 에이전트 보안 분석, 신뢰 모델 결함과 높은 취약성 비율 드러나

보안 아키텍처 붕괴
분석 결과, AI 에이전트의 근본적인 신뢰 모델이 무너졌음을 보여줍니다. 기존 보안 아키텍처와 달리, AI 에이전트는 공격과 합법적인 명령을 동일한 컨텍스트 창에서 처리하며 구조적 차별화가 없습니다. 기존 보안의 기반이 되는 제어/데이터 평면 분리가 현재 AI 에이전트 구현에는 존재하지 않습니다.
주요 실증적 발견
- 간접 주입은 MCPTox, ASB, PINT 벤치마크에서 최신 모델들에 걸쳐 36-98%의 공격 성공률(ASR)을 달성함
- 더 능력 있는 모델일수록 도구 계층 공격에 더 취약함
- npm MCP 생태계 스캔: 2,386개 패키지 검사 결과, 49%에서 보안 문제 발견
- 공격 표면은 에이전트 능력에 따라 초선형적으로 증가함
제안된 해결책: 에이전트 위협 규칙(ATR)
연구는 AI 에이전트 위협을 위한 최초의 오픈 탐지 표준인 에이전트 위협 규칙(ATR)을 제시합니다. 구현 내용은 다음과 같습니다:
- 61개 탐지 규칙
- PINT 벤치마크에서 99.4% 정밀도
- MIT 라이선스 오픈 소스
- GitHub에서 이용 가능: https://github.com/Agent-Threat-Rule/agent-threat-rules
전체 논문은 30개 이상의 CVE, 7개 벤치마크를 다루며, AI 확장 속도를 따라잡을 수 있는 방어를 위한 아키텍처 요구사항을 제안합니다.
📖 Read the full source: r/ClaudeAI
👀 See Also

LLM 지원 익스플로잇: Anthropic의 Mythos Preview가 애플 M5에서 첫 공개 macOS 커널 익스플로잇을 5일 만에 구축하는 데 기여
Anthropic의 Mythos Preview를 사용하여 보안 회사 Calif가 Apple M5 실리콘에서 최초의 공개 macOS 커널 메모리 손상 익스플로잇을 5일 만에 구축했습니다. 이는 Apple이 5년에 걸쳐 개발한 MIE 하드웨어 보안을 무너뜨린 것입니다.

AISI 평가, 클로드 미토스 프리뷰의 CTF 및 다단계 공격에서의 사이버 역량을 보여줍니다
AI 보안 연구소(AISI)가 Anthropic의 Claude Mythos Preview를 평가한 결과, 전문가 수준의 캡처 더 플래그(CTF) 과제를 73% 성공적으로 완료했으며, 32단계 기업 네트워크 공격 시뮬레이션을 10번의 시도 중 3번 해결했습니다.

코드월 AI 에이전트, 맥킨지의 릴리 플랫폼에서 치명적 취약점 발견
CodeWall의 자율 공격형 AI 에이전트가 2시간 만에 McKinsey의 내부 Lilli AI 플랫폼 데이터베이스에 대한 전체 읽기/쓰기 접근 권한을 획득하여 SQL 인젝션 및 IDOR 취약점을 통해 4,650만 건의 채팅 메시지, 728,000개의 파일, 민감한 시스템 구성을 노출시켰습니다.

Sieve: AI 코딩 도구 채팅 기록용 로컬 비밀 스캐너
Sieve가 Cursor, Claude Code, Copilot 및 기타 AI 코딩 어시스턴트 채팅 기록에서 API 키와 토큰 유출을 스캔합니다. 모든 스캔은 로컬에서 이루어지며, 수정 및 macOS 키체인 볼트 기능이 포함됩니다.