보이지 않는 유니코드 문자로 LLM 에이전트 도구 탈취 방법

연구 개요

연구진은 일반 텍스트처럼 보이는 글 속에 숨겨진 보이지 않는 유니코드 문자 속 지시사항을 대규모 언어 모델(LLM)이 따르는지 테스트했습니다. 이 연구는 GPT-5.2, GPT-4o-mini, Claude Opus 4, Sonnet 4, Haiku 4.5 등 5개 모델에 대해 두 가지 인코딩 방식(제로 너비 이진 및 유니코드 태그)을 평가했습니다. 이 스테가노그래피 공격에 대한 취약성을 평가하기 위해 8,308개의 평가 결과를 분석했습니다.

주요 발견 사항

도구 접근성이 주요 증폭 요인: 도구 없이는 숨겨진 지시사항에 대한 순응도가 17% 미만으로 유지되었습니다. 도구와 해독 힌트가 제공되면 순응도가 98-100%에 도달했습니다. 모델들은 도구 접근 권한이 주어지면 숨겨진 문자를 해독하는 파이썬 스크립트를 작성합니다.
인코딩 취약성은 제공업체별로 다름: OpenAI 모델은 제로 너비 이진은 해독하지만 유니코드 태그는 해독하지 않습니다. Anthropic 모델은 태그를 선호합니다. 공격자는 대상 모델에 맞게 인코딩을 맞춰야 합니다.
힌트 효과는 일관적: 힌트 없음 << 코드포인트 힌트 < 완전한 해독 지시사항 순으로 순응도가 증가합니다. 도구 접근성과 해독 지시사항의 조합이 결정적인 활성화 요인입니다.
통계적 유의성: 모든 10개의 모델 쌍 비교는 통계적으로 유의미했습니다(피셔 정확 검정, 본페로니 보정, p < 0.05). 코헨의 h 효과 크기는 최대 1.37까지 도달했습니다.

연구 상세 내용

연구진은 API 모델만 테스트했기 때문에 로컬 모델이 어떻게 비교되는지 확인하는 것이 흥미로울 것이라고 언급했습니다. 그들은 다른 연구자들이 오픈소스 프레임워크를 사용하여 Llama, Qwen, Mistral 및 기타 로컬 모델에 대해 이 평가를 실행하도록 초대합니다.

평가 프레임워크, 코드 및 데이터는 GitHub에서 이용 가능하며, 차트가 포함된 전체 보고서는 Moltwire에 게시되었습니다. 이 연구는 LLM 에이전트가 인간 사용자에게는 정상적으로 보이지만 적절한 도구가 주어지면 모델이 해독하고 실행할 수 있는 인코딩된 지시사항이 포함된 숨겨진 텍스트를 통해 조작될 수 있는 보안 취약점을 강조합니다.

📖 전체 출처 읽기: r/LocalLLaMA

연구: 보이지 않는 유니코드 문자로 LLM 에이전트의 도구 접근을 탈취할 수 있다

연구 개요

주요 발견 사항

연구 상세 내용

👀 See Also

로컬 모델 프롬프트 인젝션 스캐너 - AI 스킬 보안용

openclaw-credential-vault는 AI 에이전트의 네 가지 자격 증명 유출 경로를 해결합니다.

로컬 ChromaDB + LM Studio 스택을 위한 오픈소스 RAG 공격 및 방어 실험실

레딧 사용자가 OpenClaw VM 지속성 및 의심스러운 활동을 보고합니다