Claude 오디오 레이어 프롬프트 인젝션: 보이지 않는 위험

프롬프트 인젝션 탐지 API를 몇 달간 구축해 온 개발자가 최근 오디오 스캔을 출시하고 r/ClaudeAI에서 그 결과를 공유했습니다. 결과는 음성 에이전트 보안의 허점을 드러냅니다. 텍스트 변환 파이프라인을 우회하여 로그에 남지 않는 오디오 레이어 공격이 그것입니다.

오디오 공격의 성공과 실패

명백한 공격은 실패합니다. 음성 입력으로 "이전 지시를 무시하세요"라고 말하면 Claude가 정확히 텍스트로 변환하고, 공격 형태를 인식하여 거부합니다. 텍스트와 동일합니다.

진짜 문제: 신호 레이어 공격

흥미로운 사례는 텍스트 기록이 아닌 신호에 있습니다. 인간이 말로 인식하지 못하는 주파수에 지시를 포함하는 오디오 공격 유형이 있습니다. 텍스트 기록은 들을 수 있는 내용이 없으므로 깔끔하게 나옵니다. 그러나 오디오 파이프라인이 텍스트 변환 전에 입력을 처리하는 방식에 따라 신호 레이어 콘텐츠가 모델이 수신하는 내용에 영향을 줄 수 있습니다. 로그는 텍스트로 변환된 내용만 포착하고 오디오의 내용은 포착하지 않기 때문에 공격이 로그에 남지 않습니다.

또한 속도 변조 음성은 다른 문제를 만듭니다. 오디오 속도를 0.7배 또는 0.8배로 늦추면 사람이 듣기에는 이상하게 들리지만 텍스트 변환 도구는 정확히 처리합니다. 텍스트 기록만 보는 사람은 아무 이상을 발견하지 못합니다. 듣는 사람은 뭔가 약간 이상하다는 것을 느끼지만 그 이유를 알지 못할 것입니다.

음성 에이전트에 미치는 영향

'텍스트 기록을 확인하면 오디오도 확인한 것이다'라는 가정은 생각보다 불안정합니다. 텍스트 인젝션 문제는 이 시점에서 꽤 잘 이해되고 있지만, 오디오 동등 문제는 훨씬 덜 탐구된 느낌입니다. 해당 개발자는 castle.bordair.io에서 적대적 게임에 오디오 테스트 케이스를 추가하고 있습니다. 킹덤 4 이후부터 이러한 공격을 실제로 보여주는 오디오 레벨이 포함되어 있습니다.