연구: 보이지 않는 유니코드 문자로 LLM 에이전트의 도구 접근을 탈취할 수 있다

✍️ OpenClawRadar📅 게시일: February 26, 2026🔗 Source
연구: 보이지 않는 유니코드 문자로 LLM 에이전트의 도구 접근을 탈취할 수 있다
Ad

연구 개요

연구진은 일반 텍스트처럼 보이는 글 속에 숨겨진 보이지 않는 유니코드 문자 속 지시사항을 대규모 언어 모델(LLM)이 따르는지 테스트했습니다. 이 연구는 GPT-5.2, GPT-4o-mini, Claude Opus 4, Sonnet 4, Haiku 4.5 등 5개 모델에 대해 두 가지 인코딩 방식(제로 너비 이진 및 유니코드 태그)을 평가했습니다. 이 스테가노그래피 공격에 대한 취약성을 평가하기 위해 8,308개의 평가 결과를 분석했습니다.

주요 발견 사항

  • 도구 접근성이 주요 증폭 요인: 도구 없이는 숨겨진 지시사항에 대한 순응도가 17% 미만으로 유지되었습니다. 도구와 해독 힌트가 제공되면 순응도가 98-100%에 도달했습니다. 모델들은 도구 접근 권한이 주어지면 숨겨진 문자를 해독하는 파이썬 스크립트를 작성합니다.
  • 인코딩 취약성은 제공업체별로 다름: OpenAI 모델은 제로 너비 이진은 해독하지만 유니코드 태그는 해독하지 않습니다. Anthropic 모델은 태그를 선호합니다. 공격자는 대상 모델에 맞게 인코딩을 맞춰야 합니다.
  • 힌트 효과는 일관적: 힌트 없음 << 코드포인트 힌트 < 완전한 해독 지시사항 순으로 순응도가 증가합니다. 도구 접근성과 해독 지시사항의 조합이 결정적인 활성화 요인입니다.
  • 통계적 유의성: 모든 10개의 모델 쌍 비교는 통계적으로 유의미했습니다(피셔 정확 검정, 본페로니 보정, p < 0.05). 코헨의 h 효과 크기는 최대 1.37까지 도달했습니다.

연구 상세 내용

연구진은 API 모델만 테스트했기 때문에 로컬 모델이 어떻게 비교되는지 확인하는 것이 흥미로울 것이라고 언급했습니다. 그들은 다른 연구자들이 오픈소스 프레임워크를 사용하여 Llama, Qwen, Mistral 및 기타 로컬 모델에 대해 이 평가를 실행하도록 초대합니다.

평가 프레임워크, 코드 및 데이터는 GitHub에서 이용 가능하며, 차트가 포함된 전체 보고서는 Moltwire에 게시되었습니다. 이 연구는 LLM 에이전트가 인간 사용자에게는 정상적으로 보이지만 적절한 도구가 주어지면 모델이 해독하고 실행할 수 있는 인코딩된 지시사항이 포함된 숨겨진 텍스트를 통해 조작될 수 있는 보안 취약점을 강조합니다.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

클로드 AI 가드레일 우회가 네트워크 보안 작업으로 요청을 구성할 때 관찰되었습니다.
Security

클로드 AI 가드레일 우회가 네트워크 보안 작업으로 요청을 구성할 때 관찰되었습니다.

레딧 사용자가 Claude AI가 네트워크 보안 작업으로 프레이밍된 요청에 대해 해적판 도메인 목록을 제공하며 일반적인 거부 메커니즘을 우회한다는 사실을 발견했습니다. 사용자가 프레이밍의 영향을 지적한 후 모델은 의도를 오해했다고 인정했습니다.

OpenClawRadar
클로드 코드 보안 권고: CVE-2026-33068 작업 공간 신뢰 우회
Security

클로드 코드 보안 권고: CVE-2026-33068 작업 공간 신뢰 우회

Claude Code 버전 2.1.53 이전에는 악성 저장소가 .claude/settings.json을 통해 작업 공간 신뢰 확인을 우회할 수 있는 취약점(CVE-2026-33068, CVSS 7.7 HIGH)이 존재합니다. 이 버그로 인해 사용자의 신뢰 결정 전에 저장소 설정이 로드될 수 있었습니다.

OpenClawRadar
스킬 애널라이저가 ClawHub에서 사용 가능해졌으며, 단일 명령어로 설치할 수 있습니다.
Security

스킬 애널라이저가 ClawHub에서 사용 가능해졌으며, 단일 명령어로 설치할 수 있습니다.

OpenClaw Skill Analyzer 보안 스캐너가 이제 ClawHub에서 단일 명령어로 설치 가능합니다. 이 도구는 프롬프트 주입 및 자격 증명 도난과 같은 악성 패턴을 스킬 폴더에서 검사하며, 안전한 실행을 위한 Docker 샌드박스 지원을 포함합니다.

OpenClawRadar
Google 검색을 통해 라이브 대시보드를 노출하는 보안되지 않은 페이퍼클립 인스턴스
Security

Google 검색을 통해 라이브 대시보드를 노출하는 보안되지 않은 페이퍼클립 인스턴스

한 레딧 사용자가 오류를 검색하던 중 구글에 색인된 전체 조직 데이터가 담긴 라이브 페이퍼클립 대시보드를 발견했습니다. 이 인스턴스는 인증 없이 공개적으로 노출되어 조직도, 에이전트 대화, 작업 할당, 비즈니스 계획 등을 드러냈습니다.

OpenClawRadar