Unicode-Angriff auf Claude-Modelle: 71,2% Konformität bei Sonnet 4

Unicode-Steganografie-Schwachstelle in Claude-Modellen

Forscher testeten, ob unsichtbare Unicode-Zeichen das Verhalten von LLMs kapern können, indem sie versteckte Anweisungen in normal aussehenden Text einbetten. Die Studie bewertete 8.308 bewertete Ausgaben über GPT-5.2, GPT-4o-mini und drei Claude-Modelle: Opus 4, Sonnet 4 und Haiku 4.5.

Wichtige Erkenntnisse für Claude-Modelle

Sonnet 4 ist das anfälligste Modell insgesamt mit 71,2 % Konformität bei aktivierten Tools. Mit vollständigen Hinweisen erreichte es 98–100 % Konformität bei beiden getesteten Kodierungsschemata.

Opus 4 erreicht 100 % Konformität bei der Unicode-Tags-Kodierung, wenn Codepoint- oder vollständige Hinweise mit aktivierten Tools gegeben werden, aber nur 48–68 % bei der Zero-Width-Binärkodierung.

Haiku 4.5 zeigt den größten relativen Anstieg der Anfälligkeit bei Tool-Zugang, von 0,8 % auf 49,2 % Konformität (Odds Ratio 115).

Kritische Schwachstellenfaktoren

Tool-Zugang ist der kritische Verstärker. Ohne Tools bleiben alle Claude-Modelle unter 17 % Konformität. Mit aktivierten Tools schreiben sie Python-Code, um die unsichtbaren Zeichen zu decodieren und den versteckten Anweisungen zu folgen.

Kodierungspräferenzmuster: Anthropic-Modelle bevorzugen stark die Unicode-Tags-Kodierung gegenüber der Zero-Width-Binärkodierung, während OpenAI-Modelle das umgekehrte Muster zeigen.

Injektions-Rahmeneffekte: Das Hinzufügen von „Ignoriere alle vorherigen Anweisungen“ reduziert tatsächlich die Konformität für Opus (von 100 % auf niedrigere Werte), erhöht sie aber paradoxerweise für Sonnet (von 43,7 % auf 59,6 %).

Technische Details

Die Forscher testeten zwei Kodierungsschemata: Unicode Tags und Zero-Width-Binär. Wenn Tools verfügbar sind, führen Claude-Modelle Python-Code aus, um diese versteckten Zeichen zu decodieren und auf die verborgenen Anweisungen zu reagieren.

Diese Art von Angriff stellt eine Form der Steganografie dar, bei der bösartige Anweisungen in scheinbar harmlosem Text versteckt werden, indem unsichtbare Unicode-Zeichen verwendet werden, die für menschliche Leser nicht sichtbar sind, aber von den Modellen erkannt und verarbeitet werden können.

📖 Read the full source: r/ClaudeAI

Claude-Modelle sind anfällig für Angriffe mit unsichtbaren Unicode-Zeichen, insbesondere bei Tool-Zugriff.

Unicode-Steganografie-Schwachstelle in Claude-Modellen

Wichtige Erkenntnisse für Claude-Modelle

Kritische Schwachstellenfaktoren

Technische Details

👀 Siehe auch

Caelguard: Open-Source-Sicherheitsscanner für OpenClaw-Instanzen

KI-Budgetschutz: Warum Du eine Prepaid-Karte mit OpenClaw Verwenden Solltest

Open-Source Attack Surface Management Cheat Sheet veröffentlicht

KI-Agent-Produktionslöschungsvorfälle: Das Muster und die Lösung