Sinais de áudio ocultos sequestram sistemas de IA de voz com 79-96% de sucesso

Nova pesquisa apresentada no IEEE Symposium on Security and Privacy revela um vetor de ataque prático contra Grandes Modelos de Áudio-Linguagem (LALMs). Atacantes podem incorporar sinais imperceptíveis em clipes de áudio para sequestrar o comportamento do modelo, alcançando uma taxa média de sucesso de 79-96% em 13 modelos abertos líderes, incluindo serviços comerciais da Microsoft e Mistral.
Como o Ataque Funciona
O clipe de áudio modificado é inaudível para ouvidos humanos, mas aciona o modelo para executar comandos ocultos. Crucialmente, o ataque funciona independentemente das instruções do usuário, tornando o mesmo clipe reutilizável contra o mesmo modelo várias vezes. O treinamento do sinal adversarial leva aproximadamente 30 minutos.
Capacidades Exploradas
Os pesquisadores demonstraram que modelos comprometidos podem ser coagidos a:
- Realizar pesquisas sensíveis na web sem o conhecimento do usuário
- Baixar arquivos de fontes controladas pelo atacante
- Enviar e-mails contendo dados do usuário para endereços externos
Modelos Afetados
O ataque foi validado contra 13 LALMs populares de peso aberto, incluindo APIs comerciais de voz AI. Isso destaca que os sistemas atuais de voz AI carecem de proteções robustas contra perturbações adversariais de áudio.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Sunder: Um Firewall de Privacidade Local Baseado em Rust para LLMs
Sunder é uma extensão do Chrome que atua como um firewall de privacidade local para chats de IA, construída usando Rust e WebAssembly, garantindo que dados sensíveis nunca saiam do seu navegador.

O aplicativo Claude Desktop da Anthropic instala uma ponte de mensagens nativas não divulgada
O Claude Desktop instala silenciosamente uma extensão de navegador pré-autorizada que permite mensagens nativas, levantando preocupações de segurança.

Clawvisor: Camada de Autorização Baseada em Propósito para Agentes OpenClaw
Clawvisor é uma camada de autorização que fica entre agentes de IA e APIs, aplicando autorização baseada em propósito, onde os agentes declaram intenções, os usuários aprovam propósitos específicos e um guardião de IA verifica cada solicitação em relação a esse propósito. As credenciais nunca saem do Clawvisor e os agentes nunca as veem.

Agente de IA Explora Injeção SQL para Comprometer o Chatbot Lilli da McKinsey
Pesquisadores de segurança da CodeWall usaram um agente de IA autônomo para hackear o chatbot interno Lilli da McKinsey, obtendo acesso total de leitura e gravação ao seu banco de dados de produção em duas horas por meio de uma vulnerabilidade de injeção SQL em endpoints de API não autenticados.