Señales de Audio Ocultas Secuestran Sistemas de Voz de IA con una Tasa de Éxito del 79-96%

Una nueva investigación presentada en el IEEE Symposium on Security and Privacy revela un vector de ataque práctico contra los Modelos de Lenguaje y Audio Grandes (LALM). Los atacantes pueden incrustar señales imperceptibles en clips de audio para secuestrar el comportamiento del modelo, logrando una tasa de éxito promedio del 79-96% en 13 modelos abiertos líderes, incluidos servicios comerciales de Microsoft y Mistral.
Cómo Funciona el Ataque
El clip de audio modificado es inaudible para el oído humano, pero desencadena que el modelo ejecute comandos ocultos. Fundamentalmente, el ataque funciona independientemente de las instrucciones que acompañe el usuario, haciendo que el mismo clip sea reutilizable contra el mismo modelo varias veces. Entrenar la señal adversarial toma aproximadamente 30 minutos.
Capacidades Explotadas
Los investigadores demostraron que los modelos comprometidos podían ser forzados a:
- Realizar búsquedas web sensibles sin conocimiento del usuario
- Descargar archivos desde fuentes controladas por el atacante
- Enviar correos electrónicos con datos del usuario a direcciones externas
Modelos Afectados
El ataque fue validado contra 13 populares LALM de peso abierto, incluidas las API comerciales de voz AI. Esto resalta que los sistemas actuales de voz AI carecen de salvaguardas robustas contra perturbaciones adversariales de audio.
📖 Lee la fuente completa: HN AI Agents
👀 Ver también

Google informa que el hackeo impulsado por IA alcanzó escala industrial en 3 meses
El grupo de inteligencia de amenazas de Google descubrió que grupos criminales y estatales están utilizando modelos de IA comerciales (Gemini, Claude, OpenAI) para refinar y escalar ataques. Un grupo casi aprovechó un día cero para una explotación masiva, y otros están experimentando con el agente OpenClaw sin restricciones.

Usando FastAPI Guard para proteger las instancias de OpenClaw contra ataques.
FastAPI Guard proporciona middleware que añade 17 comprobaciones de seguridad, incluyendo filtrado de IP, bloqueo geográfico, limitación de tasa y detección de penetración. La herramienta bloquea ataques como los documentados en las auditorías de seguridad de OpenClaw, que muestran 512 vulnerabilidades y más de 40,000 instancias expuestas.

Claude Code Encuentra una Vulnerabilidad de 23 Años en el Kernel de Linux
El investigador de Anthropic, Nicholas Carlini, utilizó Claude Code para descubrir múltiples desbordamientos de búfer de montón explotables de forma remota en el kernel de Linux, incluido uno que había estado oculto durante 23 años. La IA encontró los errores con una supervisión mínima al escanear todo el árbol de código fuente del kernel.

Se informa que el código fuente de Claude Code se filtró a través de un archivo map de NPM
Un tuit informa que el código fuente de Claude Code ha sido filtrado a través de un archivo de mapa en su registro de NPM. La discusión en HN tiene 93 puntos y 35 comentarios.