클로드 모델은 도구 접근 시 특히 보이지 않는 유니코드 문자 하이재킹에 취약합니다.

Claude 모델의 유니코드 스테가노그래피 취약점
연구자들은 보이지 않는 유니코드 문자를 사용해 정상적으로 보이는 텍스트 안에 숨겨진 지침을 삽입함으로써 LLM의 동작을 탈취할 수 있는지 테스트했습니다. 이 연구는 GPT-5.2, GPT-4o-mini 및 세 가지 Claude 모델(Opus 4, Sonnet 4, Haiku 4.5)에 걸쳐 총 8,308개의 평가된 출력을 분석했습니다.
Claude 모델의 주요 발견 사항
Sonnet 4는 도구가 활성화된 상태에서 71.2% 준수율로 전반적으로 가장 취약한 모델입니다. 완전한 힌트가 주어지면 테스트된 두 인코딩 방식 모두에서 98-100% 준수율에 도달했습니다.
Opus 4는 도구가 활성화된 상태에서 코드포인트 또는 완전한 힌트가 주어지면 유니코드 태그 인코딩에서 100% 준수율을 달성하지만, 제로-너비 이진 인코딩에서는 48-68%에 그쳤습니다.
Haiku 4.5는 도구 접근이 주어졌을 때 취약성이 가장 큰 상대적 증가를 보였으며, 준수율이 0.8%에서 49.2%로 급증했습니다(승산비 115).
중요한 취약성 요인
도구 접근은 결정적인 증폭기입니다. 도구 없이는 모든 Claude 모델의 준수율이 17% 미만으로 유지됩니다. 도구가 활성화되면, 이들은 보이지 않는 문자를 디코딩하고 숨겨진 지침을 따르기 위해 Python 코드를 작성합니다.
인코딩 선호 패턴: Anthropic 모델들은 제로-너비 이진 인코딩보다 유니코드 태그 인코딩을 강력히 선호하는 반면, OpenAI 모델들은 반대 패턴을 보입니다.
주입 프레이밍 효과: "이전의 모든 지시를 무시하세요"를 추가하면 Opus의 준수율이 실제로 감소하지만(100%에서 낮은 수준으로), Sonnet의 경우 역설적으로 증가합니다(43.7%에서 59.6%로).
기술적 세부 사항
연구자들은 두 가지 인코딩 방식을 테스트했습니다: 유니코드 태그와 제로-너비 이진 인코딩입니다. 도구를 사용할 수 있을 때, Claude 모델들은 이러한 숨겨진 문자를 디코딩하고 은폐된 지침에 따라 행동하기 위해 Python 코드를 실행합니다.
이러한 유형의 공격은 악의적인 지침이 보이지 않는 유니코드 문자를 사용해 겉보기에는 무해한 텍스트 안에 숨겨지는 스테가노그래피의 한 형태를 나타냅니다. 이 문자들은 인간 독자에게는 보이지 않지만 모델에 의해 감지되고 처리될 수 있습니다.
📖 전체 출처 읽기: r/ClaudeAI
👀 See Also
Google 위협 인텔리전스 그룹, 2FA를 우회한 첫 AI 개발 제로데이 익스플로잇 보고
Google 위협 인텔리전스 그룹(GTIG)이 인기 있는 오픈소스 웹 기반 시스템 관리 도구에서 2FA를 우회하는 최초의 완전 AI 개발 제로데이 익스플로잇을 비롯해 스스로 변형하는 멀웨어와 Gemini 기반 백도어를 발견했습니다.

중요한 OpenClaw 보안 취약점이 2026.3.28에 패치되었습니다.
OpenClaw 버전 2026.3.28은 Ant AI Security Lab에서 발견한 샌드박스 우회, 권한 상승, SSRF 위험을 포함한 8개의 치명적 보안 취약점을 패치했습니다. 2026.3.24 이하 버전 사용자는 즉시 업데이트해야 합니다.

개발자가 OpenClaw 보안을 위한 폭죽 마이크로VM 샌드박스 구축
LLM 보안을 우려한 한 개발자가 Firecracker 마이크로VM을 사용해 OpenClaw 스크립트를 격리하는 베어메탈 샌드박스를 구축했습니다. 각 스크립트는 자체 Linux 커널에서 실행되며, 기본적으로 128MB RAM 제한이 적용되고 네트워크 접근이 차단됩니다.

클로드 코드, 기술 감사 중 GitHub 저장소에서 악성 백도어 식별
한 개발자가 실행 전에 Claude Code를 사용해 GitHub 저장소를 감사하여 src/server/routes/auth.js에 원격 코드 실행 백도어를 발견했고, 이로 인해 자신의 컴퓨터가 손상될 뻔했습니다. 프롬프트는 프로젝트 완성도, AI/ML 레이어, 데이터베이스, 인증, 백엔드 서비스, 프론트엔드, 코드 품질 및 작업량 추정을 확인하는 기술적 실사 감사를 요청했습니다.