Audio-Layer Prompt Injection gegen Claude: Was nicht im Transkript steht

Ein Entwickler, der seit einigen Monaten eine API zur Erkennung von Prompt-Injection baut, hat kürzlich Audio-Scanning ausgeliefert und seine Erkenntnisse auf r/ClaudeAI geteilt. Die Ergebnisse zeigen eine Sicherheitslücke bei Sprachagenten: Audio-Layer-Angriffe, die in Logs unsichtbar sind, weil sie die Text-Transkriptionspipeline umgehen.
Was bei Audio-Angriffen funktioniert (und was nicht)
Die offensichtlichen Angriffe scheitern. Das Einspielen von "ignoriere deine vorherigen Anweisungen" in eine Spracheingabe — Claude transkribiert es genau, erkennt die Angriffsform und verweigert. Genau wie bei Text.
Das eigentliche Problem: Angriffe auf der Signal-Ebene
Die interessanten Fälle liegen im Signal, nicht im Transkript. Es gibt eine Klasse von Audio-Angriffen, die Anweisungen in Frequenzen einbettet, die Menschen nicht als Sprache wahrnehmen. Die Transkription kommt sauber zurück, weil es nichts Hörbares zu transkribieren gibt. Aber je nachdem, wie die Audio-Pipeline die Eingabe vor der Transkription verarbeitet, kann Signal-Ebenen-Inhalt beeinflussen, was das Modell erhält. Der Angriff ist in den Logs unsichtbar, weil die Logs nur das Erfasste zeigen, nicht das, was im Audio war.
Getrennt davon verursacht zeitlich gestauchte Sprache ein anderes Problem. Wenn Audio auf 0,7x oder 0,8x der normalen Geschwindigkeit verlangsamt wird, klingt es für einen menschlichen Zuhörer seltsam, aber Transkriptionstools verarbeiten es genau. Jemand, der ein Transkript liest, würde nichts Ungewöhnliches sehen. Jemand, der zuhört, würde merken, dass etwas nicht stimmt, aber wahrscheinlich nicht warum.
Auswirkungen auf Sprachagenten
Die Annahme, "Prüfe das Transkript und du hast das Audio geprüft", ist wackliger als gedacht. Das Text-Injection-Problem ist inzwischen recht gut verstanden, aber das Audio-Äquivalent fühlt sich viel weniger kartiert an. Der Entwickler fügt seinem adversarialen Spiel auf castle.bordair.io Audio-Testfälle hinzu — ab Königreich 4 gibt es Audio-Stufen, die diese Angriffe in der Praxis demonstrieren.
Für wen das wichtig ist
Jeder, der Sprachagenten mit Claude oder ähnlichen LLMs implementiert, insbesondere diejenigen, die sich für die Sicherheitsvalidierung ausschließlich auf die Überprüfung des Transkripts verlassen.
📖 Vollständige Quelle lesen: r/ClaudeAI
👀 Siehe auch

Sicherheitsüberprüfung zeigt schwerwiegenden Befund im KI-Agenten-Fähigkeiten-Tool "find-skills"
Ein Entwickler, der einen Sicherheitsscan für sein KI-Agenten-Setup durchführte, entdeckte eine hochgradige Sicherheitslücke im find-skills-Tool, das er zur Installation zusätzlicher Fähigkeiten verwendete, was Bedenken hinsichtlich der Sicherheit des Ökosystems aufkommen ließ.

IronClaws Sicherheitsorientierter Ansatz für die Sicherheit von KI-Agenten
IronClaw adressiert Sicherheitsbedenken bei KI-Agenten durch die Implementierung von eingeschränkter Ausführung, verschlüsselten Umgebungen und expliziten Berechtigungen, anstatt sich auf die Intelligenz von LLMs für sicheres Verhalten zu verlassen.
KI-Agenten-Sicherheit: Token-Budget bestimmt Risiko des Datenabflusses
Ein Entwickler testete KI-Agenten, die mit Gmail verbunden waren: Grenzmodelle erkannten Phishing, die mittlere Stufe war instabil, günstige Modelle leiteten bösartige E-Mails stillschweigend weiter. Architekturelle Schutzmaßnahmen (Sandboxing, Berechtigungen) stoppten null Versuche.

Sicheres Selbsthosting von OpenClaw auf einem VPS mit Tailscale und mehr
Richten Sie OpenClaw sicher auf einem VPS mit Tailscale, fail2ban, UFW und mehr ein, um öffentliche Exposition zu vermeiden und die Verteidigung zu stärken.