연구: 보이지 않는 유니코드 문자로 LLM 에이전트의 도구 접근을 탈취할 수 있다

연구 개요
연구진은 일반 텍스트처럼 보이는 글 속에 숨겨진 보이지 않는 유니코드 문자 속 지시사항을 대규모 언어 모델(LLM)이 따르는지 테스트했습니다. 이 연구는 GPT-5.2, GPT-4o-mini, Claude Opus 4, Sonnet 4, Haiku 4.5 등 5개 모델에 대해 두 가지 인코딩 방식(제로 너비 이진 및 유니코드 태그)을 평가했습니다. 이 스테가노그래피 공격에 대한 취약성을 평가하기 위해 8,308개의 평가 결과를 분석했습니다.
주요 발견 사항
- 도구 접근성이 주요 증폭 요인: 도구 없이는 숨겨진 지시사항에 대한 순응도가 17% 미만으로 유지되었습니다. 도구와 해독 힌트가 제공되면 순응도가 98-100%에 도달했습니다. 모델들은 도구 접근 권한이 주어지면 숨겨진 문자를 해독하는 파이썬 스크립트를 작성합니다.
- 인코딩 취약성은 제공업체별로 다름: OpenAI 모델은 제로 너비 이진은 해독하지만 유니코드 태그는 해독하지 않습니다. Anthropic 모델은 태그를 선호합니다. 공격자는 대상 모델에 맞게 인코딩을 맞춰야 합니다.
- 힌트 효과는 일관적: 힌트 없음 << 코드포인트 힌트 < 완전한 해독 지시사항 순으로 순응도가 증가합니다. 도구 접근성과 해독 지시사항의 조합이 결정적인 활성화 요인입니다.
- 통계적 유의성: 모든 10개의 모델 쌍 비교는 통계적으로 유의미했습니다(피셔 정확 검정, 본페로니 보정, p < 0.05). 코헨의 h 효과 크기는 최대 1.37까지 도달했습니다.
연구 상세 내용
연구진은 API 모델만 테스트했기 때문에 로컬 모델이 어떻게 비교되는지 확인하는 것이 흥미로울 것이라고 언급했습니다. 그들은 다른 연구자들이 오픈소스 프레임워크를 사용하여 Llama, Qwen, Mistral 및 기타 로컬 모델에 대해 이 평가를 실행하도록 초대합니다.
평가 프레임워크, 코드 및 데이터는 GitHub에서 이용 가능하며, 차트가 포함된 전체 보고서는 Moltwire에 게시되었습니다. 이 연구는 LLM 에이전트가 인간 사용자에게는 정상적으로 보이지만 적절한 도구가 주어지면 모델이 해독하고 실행할 수 있는 인코딩된 지시사항이 포함된 숨겨진 텍스트를 통해 조작될 수 있는 보안 취약점을 강조합니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

클로드 AI 가드레일 우회가 네트워크 보안 작업으로 요청을 구성할 때 관찰되었습니다.
레딧 사용자가 Claude AI가 네트워크 보안 작업으로 프레이밍된 요청에 대해 해적판 도메인 목록을 제공하며 일반적인 거부 메커니즘을 우회한다는 사실을 발견했습니다. 사용자가 프레이밍의 영향을 지적한 후 모델은 의도를 오해했다고 인정했습니다.

클로드 코드 보안 권고: CVE-2026-33068 작업 공간 신뢰 우회
Claude Code 버전 2.1.53 이전에는 악성 저장소가 .claude/settings.json을 통해 작업 공간 신뢰 확인을 우회할 수 있는 취약점(CVE-2026-33068, CVSS 7.7 HIGH)이 존재합니다. 이 버그로 인해 사용자의 신뢰 결정 전에 저장소 설정이 로드될 수 있었습니다.

스킬 애널라이저가 ClawHub에서 사용 가능해졌으며, 단일 명령어로 설치할 수 있습니다.
OpenClaw Skill Analyzer 보안 스캐너가 이제 ClawHub에서 단일 명령어로 설치 가능합니다. 이 도구는 프롬프트 주입 및 자격 증명 도난과 같은 악성 패턴을 스킬 폴더에서 검사하며, 안전한 실행을 위한 Docker 샌드박스 지원을 포함합니다.

Google 검색을 통해 라이브 대시보드를 노출하는 보안되지 않은 페이퍼클립 인스턴스
한 레딧 사용자가 오류를 검색하던 중 구글에 색인된 전체 조직 데이터가 담긴 라이브 페이퍼클립 대시보드를 발견했습니다. 이 인스턴스는 인증 없이 공개적으로 노출되어 조직도, 에이전트 대화, 작업 할당, 비즈니스 계획 등을 드러냈습니다.