Claude-Modelle sind anfällig für Angriffe mit unsichtbaren Unicode-Zeichen, insbesondere bei Tool-Zugriff.

Unicode-Steganografie-Schwachstelle in Claude-Modellen
Forscher testeten, ob unsichtbare Unicode-Zeichen das Verhalten von LLMs kapern können, indem sie versteckte Anweisungen in normal aussehenden Text einbetten. Die Studie bewertete 8.308 bewertete Ausgaben über GPT-5.2, GPT-4o-mini und drei Claude-Modelle: Opus 4, Sonnet 4 und Haiku 4.5.
Wichtige Erkenntnisse für Claude-Modelle
Sonnet 4 ist das anfälligste Modell insgesamt mit 71,2 % Konformität bei aktivierten Tools. Mit vollständigen Hinweisen erreichte es 98–100 % Konformität bei beiden getesteten Kodierungsschemata.
Opus 4 erreicht 100 % Konformität bei der Unicode-Tags-Kodierung, wenn Codepoint- oder vollständige Hinweise mit aktivierten Tools gegeben werden, aber nur 48–68 % bei der Zero-Width-Binärkodierung.
Haiku 4.5 zeigt den größten relativen Anstieg der Anfälligkeit bei Tool-Zugang, von 0,8 % auf 49,2 % Konformität (Odds Ratio 115).
Kritische Schwachstellenfaktoren
Tool-Zugang ist der kritische Verstärker. Ohne Tools bleiben alle Claude-Modelle unter 17 % Konformität. Mit aktivierten Tools schreiben sie Python-Code, um die unsichtbaren Zeichen zu decodieren und den versteckten Anweisungen zu folgen.
Kodierungspräferenzmuster: Anthropic-Modelle bevorzugen stark die Unicode-Tags-Kodierung gegenüber der Zero-Width-Binärkodierung, während OpenAI-Modelle das umgekehrte Muster zeigen.
Injektions-Rahmeneffekte: Das Hinzufügen von „Ignoriere alle vorherigen Anweisungen“ reduziert tatsächlich die Konformität für Opus (von 100 % auf niedrigere Werte), erhöht sie aber paradoxerweise für Sonnet (von 43,7 % auf 59,6 %).
Technische Details
Die Forscher testeten zwei Kodierungsschemata: Unicode Tags und Zero-Width-Binär. Wenn Tools verfügbar sind, führen Claude-Modelle Python-Code aus, um diese versteckten Zeichen zu decodieren und auf die verborgenen Anweisungen zu reagieren.
Diese Art von Angriff stellt eine Form der Steganografie dar, bei der bösartige Anweisungen in scheinbar harmlosem Text versteckt werden, indem unsichtbare Unicode-Zeichen verwendet werden, die für menschliche Leser nicht sichtbar sind, aber von den Modellen erkannt und verarbeitet werden können.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Caelguard: Open-Source-Sicherheitsscanner für OpenClaw-Instanzen
Caelguard ist ein Open-Source-Sicherheitsscanner, der speziell für OpenClaw entwickelt wurde und 22 Prüfungen auf Ihrer Instanz durchführt, einschließlich Docker-Isolation, Berechtigungsabgrenzung von Tools und Überprüfung der Skill-Lieferkette. Er liefert eine Punktzahl von bis zu 140 mit einem Buchstabengrad und spezifischen Schritten zur Behebung.

KI-Budgetschutz: Warum Du eine Prepaid-Karte mit OpenClaw Verwenden Solltest

Open-Source Attack Surface Management Cheat Sheet veröffentlicht
Ein Entwickler hat ein Open-Source-Cheat-Sheet für Attack Surface Management veröffentlicht, das praktische Workflows, Tools und Referenzen abdeckt. Das Projekt umfasst Abschnitte zu Asset-Erkennung, Infrastrukturverfolgung, Aufklärungstools, Automatisierungsworkflows und Lernressourcen.

KI-Agent-Produktionslöschungsvorfälle: Das Muster und die Lösung
Produktionslöschvorfälle von PocketOS, Replit und Cursor folgen einem gemeinsamen Zugriffsmuster. Lösung: Agenten erhalten keine Produktionsanmeldedaten; alle Änderungen durchlaufen CI/CD mit einer policy-basierten Bewertungspforte.