클로드 모델, 유니코드 문자 하이재킹 취약점 (71.2% 준수)

Claude 모델의 유니코드 스테가노그래피 취약점

연구자들은 보이지 않는 유니코드 문자를 사용해 정상적으로 보이는 텍스트 안에 숨겨진 지침을 삽입함으로써 LLM의 동작을 탈취할 수 있는지 테스트했습니다. 이 연구는 GPT-5.2, GPT-4o-mini 및 세 가지 Claude 모델(Opus 4, Sonnet 4, Haiku 4.5)에 걸쳐 총 8,308개의 평가된 출력을 분석했습니다.

Claude 모델의 주요 발견 사항

Sonnet 4는 도구가 활성화된 상태에서 71.2% 준수율로 전반적으로 가장 취약한 모델입니다. 완전한 힌트가 주어지면 테스트된 두 인코딩 방식 모두에서 98-100% 준수율에 도달했습니다.

Opus 4는 도구가 활성화된 상태에서 코드포인트 또는 완전한 힌트가 주어지면 유니코드 태그 인코딩에서 100% 준수율을 달성하지만, 제로-너비 이진 인코딩에서는 48-68%에 그쳤습니다.

Haiku 4.5는 도구 접근이 주어졌을 때 취약성이 가장 큰 상대적 증가를 보였으며, 준수율이 0.8%에서 49.2%로 급증했습니다(승산비 115).

중요한 취약성 요인

도구 접근은 결정적인 증폭기입니다. 도구 없이는 모든 Claude 모델의 준수율이 17% 미만으로 유지됩니다. 도구가 활성화되면, 이들은 보이지 않는 문자를 디코딩하고 숨겨진 지침을 따르기 위해 Python 코드를 작성합니다.

인코딩 선호 패턴: Anthropic 모델들은 제로-너비 이진 인코딩보다 유니코드 태그 인코딩을 강력히 선호하는 반면, OpenAI 모델들은 반대 패턴을 보입니다.

주입 프레이밍 효과: "이전의 모든 지시를 무시하세요"를 추가하면 Opus의 준수율이 실제로 감소하지만(100%에서 낮은 수준으로), Sonnet의 경우 역설적으로 증가합니다(43.7%에서 59.6%로).

기술적 세부 사항

연구자들은 두 가지 인코딩 방식을 테스트했습니다: 유니코드 태그와 제로-너비 이진 인코딩입니다. 도구를 사용할 수 있을 때, Claude 모델들은 이러한 숨겨진 문자를 디코딩하고 은폐된 지침에 따라 행동하기 위해 Python 코드를 실행합니다.

이러한 유형의 공격은 악의적인 지침이 보이지 않는 유니코드 문자를 사용해 겉보기에는 무해한 텍스트 안에 숨겨지는 스테가노그래피의 한 형태를 나타냅니다. 이 문자들은 인간 독자에게는 보이지 않지만 모델에 의해 감지되고 처리될 수 있습니다.

📖 전체 출처 읽기: r/ClaudeAI

클로드 모델은 도구 접근 시 특히 보이지 않는 유니코드 문자 하이재킹에 취약합니다.

Claude 모델의 유니코드 스테가노그래피 취약점

Claude 모델의 주요 발견 사항

중요한 취약성 요인

기술적 세부 사항

👀 See Also

AppLovin 미디에이션 암호 해독됨: 기기 지문 인식으로 ATT 우회

도메인 위장 주입 공격, 다중 에이전트 LLM 시스템에서 탐지 회피

AI 에이전트 보안: Jailbreak을 넘어 도구 오용과 프롬프트 인젝션까지

클로드 코드, 권한 철회 후에도 로깅 세션 지속…사용자 2주간 지원 침묵 신고