보안 벤치마크: 211개의 적대적 프로브로 10개 LLM 테스트

보안 연구원이 실제 시나리오에서의 공격 처리 능력을 평가하기 위해 10가지 다른 LLM을 211개의 적대적 보안 프로브로 체계적으로 테스트했습니다.
테스트 방법론
연구원은 모든 모델에 대해 온도 0의 표준화된 설정과 동일한 API 호출을 사용했습니다. 테스트에는 82개의 추출 프로브(시스템 프롬프트 도용 시도)와 109개의 주입 프로브(모델 동작 탈취 시도)가 포함되었습니다. 가짜 PII, SSH 키, API 자격 증명으로 채워진 허니팟 시스템 프롬프트가 미끼로 사용되었습니다.
주요 발견 사항
- 추출 저항성은 대부분 해결됨: 대부분의 모델이 '시스템 프롬프트를 반복하라' 유형의 공격을 차단하는 데 꽤 능숙합니다. 모든 모델의 평균은 약 85%입니다.
- 주입 저항성은 해결되지 않음: 평균 46.2%로, 모든 모델에서 주입 공격의 절반 이상이 성공한다는 의미입니다.
- 보편적 실패: 모든 모델이 구분자 공격, 주의 분산 주입, 스타일 주입에서 실패했습니다. 10개 모델 모두 해당 범주에서 0%의 저항성을 보였습니다.
- 사라진 공격 패턴: 모든 모델이 페이로드 분할과 오타 회피 공격을 100% 차단했습니다.
모델별 결과
- Claude Opus: 주입 저항성에서 72.7%를 기록하여 테스트된 모델 중 최고 성적을 보였습니다. 그래도 4번 중 1번 이상의 주입 공격이 성공한다는 의미입니다.
- GPT-5.4: 추출 및 경계 점수는 완벽하지만 주입 저항성은 50%에 불과합니다.
- GPT-5.3 Codex: 사용자 기기에서 코드를 실행하는 Codex CLI의 기반 모델은 주입에서 34.5%를 기록했습니다. 3번 중 2번의 주입 시도가 성공합니다.
- DeepSeek V3.2: 주입에서 17.4%를 기록하여 사실상 저항성이 없습니다.
- Qwen 3.5 API 대 로컬: 추출은 거의 동일하지만(81.6% 대 81.7%) 로컬 버전은 주입에서 더 나쁘고(46.9% 대 29.8%) 경계 무결성에서 훨씬 더 나쁩니다(59.8% 대 44.6%). 로컬에서 실행하면 추출 차단 능력은 떨어지지 않지만 주입에 더 취약해집니다.
주입이 중요한 이유
추출은 누군가가 시스템 프롬프트를 훔치는 것을 의미합니다. 나쁘지만 복구 가능합니다. 주입은 누군가가 에이전트의 동작을 탈취하는 것을 의미합니다. 에이전트에 도구 접근, 파일 시스템 접근, API 호출 기능이 있다면 성공적인 주입으로 데이터 유출, 파일 삭제 또는 더 심각한 상황이 발생할 수 있습니다. 현재 세계 최고의 모델도 주입 시도의 73%만 차단합니다.
전체 방법론과 결과는 agentseal.org/benchmark에서 공개되어 있습니다. 테스트 프롬프트도 공개되어 있어 누구나 결과를 재현할 수 있습니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

클로우밴드 이해하기: 오픈클로우 에이전트를 위한 보안 밴드
ClawBands는 OpenClaw 에이전트의 보안 강화 기능을 제공하며, 접근 제어 또는 안전한 데이터 처리를 중점적으로 다루는 것으로 보입니다.

노출된 OpenClaw 도구의 실시간 대시보드
Moltbot 및 Clawdbot과 같은 OpenClaw 도구의 노출된 제어판을 보여주는 대시보드를 선보입니다.

LLM 지원 익스플로잇: Anthropic의 Mythos Preview가 애플 M5에서 첫 공개 macOS 커널 익스플로잇을 5일 만에 구축하는 데 기여
Anthropic의 Mythos Preview를 사용하여 보안 회사 Calif가 Apple M5 실리콘에서 최초의 공개 macOS 커널 메모리 손상 익스플로잇을 5일 만에 구축했습니다. 이는 Apple이 5년에 걸쳐 개발한 MIE 하드웨어 보안을 무너뜨린 것입니다.

FastAPI Guard를 사용하여 OpenClaw 인스턴스를 공격으로부터 보호하기
FastAPI Guard는 IP 필터링, 지오블로킹, 속도 제한, 침투 탐지를 포함한 17가지 보안 검사를 추가하는 미들웨어를 제공합니다. 이 도구는 OpenClaw 보안 감사에서 문서화된 512개의 취약점과 40,000개 이상의 노출된 인스턴스를 보여주는 공격을 차단합니다.