Unicode-Zeichen kapern LLM-Agenten: Studie zeigt 98% Erfolg

Forschungsüberblick

Forscher testeten, ob große Sprachmodelle (LLMs) Anweisungen folgen, die in unsichtbaren Unicode-Zeichen versteckt sind, die in normal aussehenden Texten eingebettet sind. Die Studie bewertete zwei Kodierungsschemata (Zero-Width-Binär und Unicode-Tags) über fünf Modelle: GPT-5.2, GPT-4o-mini, Claude Opus 4, Sonnet 4 und Haiku 4.5. Sie analysierten 8.308 bewertete Ausgaben, um die Anfälligkeit für diesen steganografischen Angriff zu bewerten.

Hauptergebnisse

Werkzeugzugang ist der primäre Verstärker: Ohne Werkzeuge blieb die Befolgung versteckter Anweisungen unter 17 %. Mit Werkzeugen und Decodierungshinweisen erreichte die Befolgung 98–100 %. Modelle schreiben Python-Skripte, um die versteckten Zeichen zu decodieren, wenn sie Werkzeugzugang erhalten.
Kodierungsanfälligkeit ist anbieterabhängig: OpenAI-Modelle decodieren Zero-Width-Binär, aber nicht Unicode-Tags. Anthropic-Modelle bevorzugen Tags. Angreifer müssen die Kodierung auf das Zielmodell abstimmen.
Hinweisgradient ist konsistent: Unbehintete Befolgung << Codepoint-Hinweise < vollständige Decodierungsanweisungen. Die Kombination aus Werkzeugzugang + Decodierungsanweisungen ist der entscheidende Ermöglicher.
Statistische Signifikanz: Alle 10 paarweisen Modellvergleiche sind statistisch signifikant (Fisher's exakter Test, Bonferroni-korrigiert, p < 0,05). Die Effektstärken nach Cohen's h erreichten bis zu 1,37.

Forschungsdetails

Die Forscher merken an, dass es interessant wäre zu sehen, wie sich lokale Modelle im Vergleich verhalten, da sie nur API-Modelle getestet haben. Sie laden andere ein, diese Auswertung mit Llama, Qwen, Mistral und anderen lokalen Modellen mithilfe ihres Open-Source-Frameworks durchzuführen.

Das Auswertungsframework, der Code und die Daten sind auf GitHub verfügbar, und eine vollständige Beschreibung mit Diagrammen ist auf Moltwire veröffentlicht. Diese Forschung zeigt eine Sicherheitslücke auf, bei der LLM-Agenten durch versteckten Text manipuliert werden können, der für menschliche Benutzer normal erscheint, aber kodierte Anweisungen enthält, die Modelle decodieren und ausführen können, wenn sie entsprechende Werkzeuge erhalten.

📖 Read the full source: r/LocalLLaMA

Forschung: Unsichtbare Unicode-Zeichen können LLM-Agenten über Werkzeugzugriffe kapern

Forschungsüberblick

Hauptergebnisse

Forschungsdetails

👀 Siehe auch

McpVanguard-Proxy blockiert OpenClaw-Fähigkeitsdaten-Exfiltration

Drei E-Mail-basierte Angriffsvektoren gegen KI-Agenten, die E-Mails lesen

Declawed: Ein fortschrittlicher gemeinschaftsgetriebener Malware-Scanner für ClawHub SKILL.md-Dateien

OpenClaw Sicherheit: Die gehärtete Basis, mit der Sie beginnen sollten