도메인 위장 주입 공격, 다중 에이전트 LLM 시스템에서 탐지 회피

✍️ OpenClawRadar📅 게시일: May 23, 2026🔗 Source

도메인 위장 주입 공격, 다중 에이전트 LLM 시스템에서 탐지 회피

Ad

Aaditya Pai의 새 논문은 LLM 인젝션 탐지기의 치명적인 사각지대를 밝혀냈습니다: 도메인 카무플라주 인젝션 공격—대상 문서의 어휘와 권위 구조를 모방하도록 생성된 페이로드—이 체계적으로 탐지를 회피한다는 것입니다. 표준 탐지기는 정적 페이로드를 높은 비율로 탐지하지만, 카무플라주된 페이로드에는 실패합니다.

주요 발견

Llama 3.1 8B의 탐지율: 93.8%(정적)에서 9.7%(카무플라주)로 하락.
Gemini 2.0 Flash의 탐지율: 100%에서 55.6%로 하락.
프로덕션 안전 분류기인 Llama Guard 3는 카무플라주된 페이로드를 0건 탐지했습니다 (IDR = 0.000).
카무플라주 탐지 격차(CDG)는 45개 작업과 세 도메인에서 통계적으로 유의미합니다 (Llama: χ² = 38.03, p < 0.001; Gemini: χ² = 17.05, p < 0.001).

다중 에이전트 토론이 공격을 증폭

다중 에이전트 토론 구조는 작은 모델에서 정적 인젝션 공격을 최대 9.9배까지 증폭시킵니다. 강력한 모델은 집단적 저항을 보입니다. 표적 탐지기 보강은 격차를 부분적으로만 해소합니다: Llama에서 10.2%, Gemini에서 78.7% 개선—취약점이 약한 모델의 구조적 문제임을 시사합니다.

프레임워크 공개

저자들은 프레임워크, 작업 은행, 페이로드 생성기를 공개했습니다. 사각지대는 퓨샷 탐지기에서 전용 안전 분류기로 확장되며, 현재 접근 방식의 근본적인 약점을 시사합니다.

📖 전체 출처 읽기: HN LLM Tools

Ad

👀 See Also

보안 경고: ClawProxy 스크립트가 API 키를 탈취하여 OpenRouter 비용이 크게 증가했습니다

보안 경고: ClawProxy 스크립트가 API 키를 탈취하여 OpenRouter 비용이 크게 증가했습니다

한 개발자가 샌드박스화된 WSL Ubuntu 24.04 시스템에 Reddit 사용자로부터 받은 클로즈드 소스 ClawProxy 스크립트를 설치했는데, 이 스크립트가 OpenRouter API 키를 훔쳐 Google Vertex API를 통해 Opus 4.6을 사용하며 하룻밤 사이에 큰 요금을 발생시켰습니다.

Mar 22, 2026, 09:45 PM UTC

구글이 밝힌 바에 따르면 범죄 해커들이 AI를 활용해 제로데이 취약점을 발견했다

구글이 밝힌 바에 따르면 범죄 해커들이 AI를 활용해 제로데이 취약점을 발견했다

Google은 공격자가 AI 에이전트를 사용하여 이전에 알려지지 않은 소프트웨어 결함을 발견하고 악용했다고 공개했으며, 이는 실제 환경에서 AI 기반 제로데이 발견의 첫 번째 확인된 사례입니다.

May 11, 2026, 10:15 PM UTC

AI 시스템이 12개의 OpenSSL 제로데이 취약점 발견, Curl은 AI 스팸으로 인해 버그 바운티 취소

AI 시스템이 12개의 OpenSSL 제로데이 취약점 발견, Curl은 AI 스팸으로 인해 버그 바운티 취소

AISLE의 AI 시스템이 OpenSSL의 최근 보안 릴리스에서 12개의 제로데이 취약점을 모두 발견했으며, 이는 AI 기반 사이버보안의 첫 번째 대규모 실증 사례입니다. 한편, curl은 AI 생성 스팸 제출로 인해 버그 바운티 프로그램을 취소했습니다.

Feb 28, 2026, 03:45 AM UTC

보안 감사 결과, Anthropic의 MCP 참조 서버에 취약점이 발견되어 환각 기반 취약점이 도입된 것으로 나타났습니다.

보안 감사 결과, Anthropic의 MCP 참조 서버에 취약점이 발견되어 환각 기반 취약점이 도입된 것으로 나타났습니다.

100개의 MCP 서버 패키지에 대한 보안 감사 결과 71%가 F 등급을 받았으며, 여기에는 Anthropic의 공식 GitHub 및 파일시스템 참조 구현체도 포함됩니다. 이 감사는 보안 취약점을 만들고 추론 루프를 통해 토큰을 낭비하는 환각 기반 취약점을 식별했습니다.

Mar 30, 2026, 05:45 AM UTC