Versteckte Audiosignale kapern Sprach-KI-Systeme mit 79-96% Erfolgsrate

Neue Forschungsergebnisse, die auf dem IEEE Symposium on Security and Privacy vorgestellt wurden, zeigen einen praktischen Angriffsvektor gegen große Audio-Sprachmodelle (LALMs). Angreifer können unhörbare Signale in Audio-Clips einbetten, um das Modellverhalten zu kapern, und erreichen eine durchschnittliche Erfolgsrate von 79-96 % bei 13 führenden offenen Modellen, darunter kommerzielle Dienste von Microsoft und Mistral.
Wie der Angriff funktioniert
Der modifizierte Audio-Clip ist für das menschliche Ohr unhörbar, löst aber im Modell die Ausführung versteckter Befehle aus. Entscheidend ist, dass der Angriff unabhängig von den begleitenden Anweisungen des Benutzers funktioniert, sodass derselbe Clip mehrfach gegen dasselbe Modell wiederverwendet werden kann. Das Training des adversarialen Signals dauert etwa 30 Minuten.
Ausgenutzte Fähigkeiten
Die Forscher demonstrierten, dass kompromittierte Modelle gezwungen werden konnten:
- sensible Websuchen ohne Wissen des Benutzers durchzuführen
- Dateien von angreiferkontrollierten Quellen herunterzuladen
- E-Mails mit Benutzerdaten an externe Adressen zu senden
Betroffene Modelle
Der Angriff wurde gegen 13 gängige Open-Weight-LALMs validiert, darunter kommerzielle Sprach-KI-APIs. Dies zeigt, dass aktuelle Sprach-KI-Systeme keine robusten Sicherheitsvorkehrungen gegen adversarial Audio-Störungen bieten.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Live-Dashboard der exponierten OpenClaw-Tools
Dashboard, das exponierte Steuerpanelen von OpenClaw-Tools wie Moltbot und Clawdbot zeigt.

Cloak-Tool ersetzt Chat-Passwörter durch selbstzerstörende Links für OpenClaw-Agenten.
Cloak ist ein Open-Source-Tool, das in Chats mit OpenClaw-Agenten geteilte Passwörter durch selbstzerstörende Links ersetzt. Jeder Link kann nur einmal geöffnet werden, danach verschwindet das Passwort, wodurch verhindert wird, dass sich Passwörter in Chat-Verläufen ansammeln.

Vitalik Buterins Ansatz für eine sichere lokale LLM-Einrichtung
Vitalik Buterin skizziert seinen selbstbestimmten LLM-Aufbau, der sich auf lokale Inferenz, Sandboxing und die Minderung von Datenschutzrisiken wie Datenlecks und Jailbreaks konzentriert.

Vertraue KI nicht mehr als einem Menschen – Wende dieselben Zugangskontrollen an
In einer Reddit-Diskussion wird argumentiert, dass KI-Coding-Agenten wie Junioren behandelt werden sollten – kein Produktionszugriff, keine direkten Schreibrechte, Durchsetzung von CI/CD-Pipelines und rollenbasierten Berechtigungen.