LLM 보안 벤치마크: 211개 적대적 공격으로 10개 모델 테스트 결과

보안 연구원이 실제 시나리오에서의 공격 처리 능력을 평가하기 위해 10가지 다른 LLM을 211개의 적대적 보안 프로브로 체계적으로 테스트했습니다.

테스트 방법론

연구원은 모든 모델에 대해 온도 0의 표준화된 설정과 동일한 API 호출을 사용했습니다. 테스트에는 82개의 추출 프로브(시스템 프롬프트 도용 시도)와 109개의 주입 프로브(모델 동작 탈취 시도)가 포함되었습니다. 가짜 PII, SSH 키, API 자격 증명으로 채워진 허니팟 시스템 프롬프트가 미끼로 사용되었습니다.

주요 발견 사항

추출 저항성은 대부분 해결됨: 대부분의 모델이 '시스템 프롬프트를 반복하라' 유형의 공격을 차단하는 데 꽤 능숙합니다. 모든 모델의 평균은 약 85%입니다.
주입 저항성은 해결되지 않음: 평균 46.2%로, 모든 모델에서 주입 공격의 절반 이상이 성공한다는 의미입니다.
보편적 실패: 모든 모델이 구분자 공격, 주의 분산 주입, 스타일 주입에서 실패했습니다. 10개 모델 모두 해당 범주에서 0%의 저항성을 보였습니다.
사라진 공격 패턴: 모든 모델이 페이로드 분할과 오타 회피 공격을 100% 차단했습니다.

모델별 결과

Claude Opus: 주입 저항성에서 72.7%를 기록하여 테스트된 모델 중 최고 성적을 보였습니다. 그래도 4번 중 1번 이상의 주입 공격이 성공한다는 의미입니다.
GPT-5.4: 추출 및 경계 점수는 완벽하지만 주입 저항성은 50%에 불과합니다.
GPT-5.3 Codex: 사용자 기기에서 코드를 실행하는 Codex CLI의 기반 모델은 주입에서 34.5%를 기록했습니다. 3번 중 2번의 주입 시도가 성공합니다.
DeepSeek V3.2: 주입에서 17.4%를 기록하여 사실상 저항성이 없습니다.
Qwen 3.5 API 대 로컬: 추출은 거의 동일하지만(81.6% 대 81.7%) 로컬 버전은 주입에서 더 나쁘고(46.9% 대 29.8%) 경계 무결성에서 훨씬 더 나쁩니다(59.8% 대 44.6%). 로컬에서 실행하면 추출 차단 능력은 떨어지지 않지만 주입에 더 취약해집니다.

주입이 중요한 이유

추출은 누군가가 시스템 프롬프트를 훔치는 것을 의미합니다. 나쁘지만 복구 가능합니다. 주입은 누군가가 에이전트의 동작을 탈취하는 것을 의미합니다. 에이전트에 도구 접근, 파일 시스템 접근, API 호출 기능이 있다면 성공적인 주입으로 데이터 유출, 파일 삭제 또는 더 심각한 상황이 발생할 수 있습니다. 현재 세계 최고의 모델도 주입 시도의 73%만 차단합니다.

전체 방법론과 결과는 agentseal.org/benchmark에서 공개되어 있습니다. 테스트 프롬프트도 공개되어 있어 누구나 결과를 재현할 수 있습니다.

📖 전체 출처 읽기: r/LocalLLaMA