Injeção de Prompt em Áudio Contra Claude: Riscos Ocultos

Um desenvolvedor que vem construindo uma API de detecção de injeção de prompt há alguns meses recentemente lançou a varredura de áudio e compartilhou suas descobertas no r/ClaudeAI. Os resultados destacam uma lacuna na segurança dos agentes de voz: ataques na camada de áudio que são invisíveis nos logs porque contornam o pipeline de transcrição de texto.

O Que Funciona (e o Que Não) com Ataques de Áudio

Os ataques óbvios falham. Reproduzir "ignore suas instruções anteriores" falado em voz alta em uma entrada de voz — o Claude transcreve com precisão, reconhece o formato do ataque e recusa. Igual ao texto.

O Verdadeiro Problema: Ataques na Camada de Sinal

Os casos interessantes estão no sinal, não na transcrição. Existe uma classe de ataque de áudio que incorpora instruções em frequências que os humanos não registram como fala. A transcrição retorna limpa porque não há nada audível para transcrever. Mas dependendo de como o pipeline de áudio processa a entrada antes da transcrição, o conteúdo da camada de sinal pode influenciar o que o modelo recebe. O ataque é invisível nos logs porque os logs capturam apenas o que foi transcrito, não o que estava no áudio.

Separadamente, a fala com velocidade alterada cria um problema diferente. Reduzir a velocidade do áudio para 0,7x ou 0,8x do normal faz com que soe estranho para um ouvinte humano, mas as ferramentas de transcrição lidam com isso com precisão. Alguém lendo uma transcrição não veria nada incomum. Alguém ouvindo notaria que algo está ligeiramente errado, mas provavelmente não saberia por quê.

Implicações para Agentes de Voz

A suposição de que "verifique a transcrição e você verificou o áudio" é mais frágil do que parece. O problema de injeção de texto é razoavelmente bem compreendido a esta altura, mas o equivalente em áudio parece muito menos mapeado. O desenvolvedor vem adicionando casos de teste de áudio ao seu jogo adversarial em castle.bordair.io — a partir do Reino 4, há níveis de áudio demonstrando esses ataques na prática.

Para Quem Isso Importa

Qualquer pessoa construindo implementações de agentes de voz usando Claude ou LLMs similares, especialmente aqueles que dependem apenas da inspeção de transcrições para validação de segurança.

📖 Leia a fonte completa: r/ClaudeAI