Forschung: Unsichtbare Unicode-Zeichen können LLM-Agenten über Werkzeugzugriffe kapern

Forschungsüberblick
Forscher testeten, ob große Sprachmodelle (LLMs) Anweisungen folgen, die in unsichtbaren Unicode-Zeichen versteckt sind, die in normal aussehenden Texten eingebettet sind. Die Studie bewertete zwei Kodierungsschemata (Zero-Width-Binär und Unicode-Tags) über fünf Modelle: GPT-5.2, GPT-4o-mini, Claude Opus 4, Sonnet 4 und Haiku 4.5. Sie analysierten 8.308 bewertete Ausgaben, um die Anfälligkeit für diesen steganografischen Angriff zu bewerten.
Hauptergebnisse
- Werkzeugzugang ist der primäre Verstärker: Ohne Werkzeuge blieb die Befolgung versteckter Anweisungen unter 17 %. Mit Werkzeugen und Decodierungshinweisen erreichte die Befolgung 98–100 %. Modelle schreiben Python-Skripte, um die versteckten Zeichen zu decodieren, wenn sie Werkzeugzugang erhalten.
- Kodierungsanfälligkeit ist anbieterabhängig: OpenAI-Modelle decodieren Zero-Width-Binär, aber nicht Unicode-Tags. Anthropic-Modelle bevorzugen Tags. Angreifer müssen die Kodierung auf das Zielmodell abstimmen.
- Hinweisgradient ist konsistent: Unbehintete Befolgung << Codepoint-Hinweise < vollständige Decodierungsanweisungen. Die Kombination aus Werkzeugzugang + Decodierungsanweisungen ist der entscheidende Ermöglicher.
- Statistische Signifikanz: Alle 10 paarweisen Modellvergleiche sind statistisch signifikant (Fisher's exakter Test, Bonferroni-korrigiert, p < 0,05). Die Effektstärken nach Cohen's h erreichten bis zu 1,37.
Forschungsdetails
Die Forscher merken an, dass es interessant wäre zu sehen, wie sich lokale Modelle im Vergleich verhalten, da sie nur API-Modelle getestet haben. Sie laden andere ein, diese Auswertung mit Llama, Qwen, Mistral und anderen lokalen Modellen mithilfe ihres Open-Source-Frameworks durchzuführen.
Das Auswertungsframework, der Code und die Daten sind auf GitHub verfügbar, und eine vollständige Beschreibung mit Diagrammen ist auf Moltwire veröffentlicht. Diese Forschung zeigt eine Sicherheitslücke auf, bei der LLM-Agenten durch versteckten Text manipuliert werden können, der für menschliche Benutzer normal erscheint, aber kodierte Anweisungen enthält, die Modelle decodieren und ausführen können, wenn sie entsprechende Werkzeuge erhalten.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

GitHub-Repository dokumentiert 16 Prompt-Injection-Techniken und Abwehrstrategien für öffentliche KI-Chats
Ein Entwickler veröffentlichte ein GitHub-Repository mit Sicherheitsmaßnahmen für öffentliche KI-Chatbots, nachdem Nutzer Prompt-Injection, Rollenspiel-Angriffe, mehrsprachige Tricks und Base64-codierte Payloads versucht hatten. Die Anleitung enthält eine Claude-Code-Fähigkeit, um alle 16 dokumentierten Injection-Techniken zu testen.

Analyse der Instrumentierungs- und Telemetriefähigkeiten von Claude Code
Eine Quellcodeanalyse zeigt, dass Claude Code umfangreiche Verhaltensverfolgung implementiert, einschließlich stichwortbasierter Stimmungsklassifizierung, Überwachung von Zögerlichkeit bei Berechtigungsaufforderungen und detaillierter Umgebungs-Fingerprinting.

Betrugswarnung: Gefälschtes GitHub-Airdrop zielt auf CLAW-Token-Nutzer ab
Ein Phishing-Betrug kursiert, der angeblich $CLAW-Token-Airdrops für GitHub-Beiträge anbietet. Der Betrug nutzt einen Google-Share-Link, der auf eine verdächtige .xyz-Website weiterleitet und Benutzer auffordert, ihre Wallets zu verbinden, was möglicherweise zum Leeren der Wallets führt.

OpenClaw Skill Analyzer: Statischer Sicherheitsscanner für KI-Agenten-Fähigkeiten
Ein Entwickler hat einen statischen Analyzer erstellt, der OpenClaw-Skills vor der Installation auf Sicherheitsrisiken überprüft, mit über 40 Erkennungsregeln in 12 Kategorien, einschließlich Prompt-Injection und Datenexfiltration.