도메인 위장 주입 공격, 다중 에이전트 LLM 시스템에서 탐지 회피

✍️ OpenClawRadar📅 게시일: May 23, 2026🔗 Source
도메인 위장 주입 공격, 다중 에이전트 LLM 시스템에서 탐지 회피
Ad

Aaditya Pai의 새 논문은 LLM 인젝션 탐지기의 치명적인 사각지대를 밝혀냈습니다: 도메인 카무플라주 인젝션 공격—대상 문서의 어휘와 권위 구조를 모방하도록 생성된 페이로드—이 체계적으로 탐지를 회피한다는 것입니다. 표준 탐지기는 정적 페이로드를 높은 비율로 탐지하지만, 카무플라주된 페이로드에는 실패합니다.

주요 발견

  • Llama 3.1 8B의 탐지율: 93.8%(정적)에서 9.7%(카무플라주)로 하락.
  • Gemini 2.0 Flash의 탐지율: 100%에서 55.6%로 하락.
  • 프로덕션 안전 분류기인 Llama Guard 3는 카무플라주된 페이로드를 0건 탐지했습니다 (IDR = 0.000).
  • 카무플라주 탐지 격차(CDG)는 45개 작업과 세 도메인에서 통계적으로 유의미합니다 (Llama: χ² = 38.03, p < 0.001; Gemini: χ² = 17.05, p < 0.001).

다중 에이전트 토론이 공격을 증폭

다중 에이전트 토론 구조는 작은 모델에서 정적 인젝션 공격을 최대 9.9배까지 증폭시킵니다. 강력한 모델은 집단적 저항을 보입니다. 표적 탐지기 보강은 격차를 부분적으로만 해소합니다: Llama에서 10.2%, Gemini에서 78.7% 개선—취약점이 약한 모델의 구조적 문제임을 시사합니다.

프레임워크 공개

저자들은 프레임워크, 작업 은행, 페이로드 생성기를 공개했습니다. 사각지대는 퓨샷 탐지기에서 전용 안전 분류기로 확장되며, 현재 접근 방식의 근본적인 약점을 시사합니다.

📖 전체 출처 읽기: HN LLM Tools

Ad

👀 See Also