도메인 위장 주입 공격, 다중 에이전트 LLM 시스템에서 탐지 회피

Aaditya Pai의 새 논문은 LLM 인젝션 탐지기의 치명적인 사각지대를 밝혀냈습니다: 도메인 카무플라주 인젝션 공격—대상 문서의 어휘와 권위 구조를 모방하도록 생성된 페이로드—이 체계적으로 탐지를 회피한다는 것입니다. 표준 탐지기는 정적 페이로드를 높은 비율로 탐지하지만, 카무플라주된 페이로드에는 실패합니다.
주요 발견
- Llama 3.1 8B의 탐지율: 93.8%(정적)에서 9.7%(카무플라주)로 하락.
- Gemini 2.0 Flash의 탐지율: 100%에서 55.6%로 하락.
- 프로덕션 안전 분류기인 Llama Guard 3는 카무플라주된 페이로드를 0건 탐지했습니다 (IDR = 0.000).
- 카무플라주 탐지 격차(CDG)는 45개 작업과 세 도메인에서 통계적으로 유의미합니다 (Llama: χ² = 38.03, p < 0.001; Gemini: χ² = 17.05, p < 0.001).
다중 에이전트 토론이 공격을 증폭
다중 에이전트 토론 구조는 작은 모델에서 정적 인젝션 공격을 최대 9.9배까지 증폭시킵니다. 강력한 모델은 집단적 저항을 보입니다. 표적 탐지기 보강은 격차를 부분적으로만 해소합니다: Llama에서 10.2%, Gemini에서 78.7% 개선—취약점이 약한 모델의 구조적 문제임을 시사합니다.
프레임워크 공개
저자들은 프레임워크, 작업 은행, 페이로드 생성기를 공개했습니다. 사각지대는 퓨샷 탐지기에서 전용 안전 분류기로 확장되며, 현재 접근 방식의 근본적인 약점을 시사합니다.
📖 전체 출처 읽기: HN LLM Tools
👀 See Also

Sieve: AI 코딩 도구 채팅 기록용 로컬 비밀 스캐너
Sieve가 Cursor, Claude Code, Copilot 및 기타 AI 코딩 어시스턴트 채팅 기록에서 API 키와 토큰 유출을 스캔합니다. 모든 스캔은 로컬에서 이루어지며, 수정 및 macOS 키체인 볼트 기능이 포함됩니다.

AI 챗봇, 실제 전화번호 유출: 개인정보 노출 문제
Gemini, ChatGPT, Claude와 같은 챗봇이 훈련 데이터의 개인식별정보(PII)로 인해 실제 개인 전화번호를 노출하고 있습니다. DeleteMe는 7개월 만에 AI 관련 개인정보 보호 요청이 400% 증가했다고 보고합니다.

노출된 OpenClaw 도구의 실시간 대시보드
Moltbot 및 Clawdbot과 같은 OpenClaw 도구의 노출된 제어판을 보여주는 대시보드를 선보입니다.

arifOS: 오픈클로 도구 보안을 위한 1500만 달러 규모의 MCP 거버넌스 커널
arifOS는 경량 MCP 서버로 OpenClaw 도구 호출을 가로채어 000-999 점수를 매기고, 파일 시스템, API 또는 데이터베이스에 도달하기 전에 13개의 강력한 보안 단계로 안전하지 않은 작업을 차단합니다.