Audio-Prompt-Injection gegen Claude: Unsichtbare Risiken im Signal

Ein Entwickler, der seit einigen Monaten eine API zur Erkennung von Prompt-Injection baut, hat kürzlich Audio-Scanning ausgeliefert und seine Erkenntnisse auf r/ClaudeAI geteilt. Die Ergebnisse zeigen eine Sicherheitslücke bei Sprachagenten: Audio-Layer-Angriffe, die in Logs unsichtbar sind, weil sie die Text-Transkriptionspipeline umgehen.

Was bei Audio-Angriffen funktioniert (und was nicht)

Die offensichtlichen Angriffe scheitern. Das Einspielen von "ignoriere deine vorherigen Anweisungen" in eine Spracheingabe — Claude transkribiert es genau, erkennt die Angriffsform und verweigert. Genau wie bei Text.

Das eigentliche Problem: Angriffe auf der Signal-Ebene

Die interessanten Fälle liegen im Signal, nicht im Transkript. Es gibt eine Klasse von Audio-Angriffen, die Anweisungen in Frequenzen einbettet, die Menschen nicht als Sprache wahrnehmen. Die Transkription kommt sauber zurück, weil es nichts Hörbares zu transkribieren gibt. Aber je nachdem, wie die Audio-Pipeline die Eingabe vor der Transkription verarbeitet, kann Signal-Ebenen-Inhalt beeinflussen, was das Modell erhält. Der Angriff ist in den Logs unsichtbar, weil die Logs nur das Erfasste zeigen, nicht das, was im Audio war.

Getrennt davon verursacht zeitlich gestauchte Sprache ein anderes Problem. Wenn Audio auf 0,7x oder 0,8x der normalen Geschwindigkeit verlangsamt wird, klingt es für einen menschlichen Zuhörer seltsam, aber Transkriptionstools verarbeiten es genau. Jemand, der ein Transkript liest, würde nichts Ungewöhnliches sehen. Jemand, der zuhört, würde merken, dass etwas nicht stimmt, aber wahrscheinlich nicht warum.

Auswirkungen auf Sprachagenten

Die Annahme, "Prüfe das Transkript und du hast das Audio geprüft", ist wackliger als gedacht. Das Text-Injection-Problem ist inzwischen recht gut verstanden, aber das Audio-Äquivalent fühlt sich viel weniger kartiert an. Der Entwickler fügt seinem adversarialen Spiel auf castle.bordair.io Audio-Testfälle hinzu — ab Königreich 4 gibt es Audio-Stufen, die diese Angriffe in der Praxis demonstrieren.

Für wen das wichtig ist

Jeder, der Sprachagenten mit Claude oder ähnlichen LLMs implementiert, insbesondere diejenigen, die sich für die Sicherheitsvalidierung ausschließlich auf die Überprüfung des Transkripts verlassen.

📖 Vollständige Quelle lesen: r/ClaudeAI

Audio-Layer Prompt Injection gegen Claude: Was nicht im Transkript steht

Was bei Audio-Angriffen funktioniert (und was nicht)

Das eigentliche Problem: Angriffe auf der Signal-Ebene

Auswirkungen auf Sprachagenten

Für wen das wichtig ist

👀 Siehe auch

Sicherheitsüberprüfung zeigt schwerwiegenden Befund im KI-Agenten-Fähigkeiten-Tool "find-skills"

IronClaws Sicherheitsorientierter Ansatz für die Sicherheit von KI-Agenten

KI-Agenten-Sicherheit: Token-Budget bestimmt Risiko des Datenabflusses

Sicheres Selbsthosting von OpenClaw auf einem VPS mit Tailscale und mehr