숨겨진 오디오 신호로 음성 AI 시스템을 79-96% 성공률로 탈취하다

IEEE 시큐리티 앤 프라이버시 심포지엄에서 발표된 새로운 연구는 대규모 오디오-언어 모델(LALM)에 대한 실질적인 공격 벡터를 공개했습니다. 공격자는 오디오 클립에 감지할 수 없는 신호를 삽입하여 모델의 동작을 가로챌 수 있으며, Microsoft 및 Mistral의 상용 서비스를 포함한 13개의 주요 오픈 모델에서 평균 79-96%의 성공률을 달성했습니다.
공격 작동 방식
변조된 오디오 클립은 인간의 귀에는 들리지 않지만 모델이 숨겨진 명령을 실행하도록 유발합니다. 중요한 점은, 이 공격이 사용자의 동반 지시와 관계없이 작동하며, 동일한 클립을 동일한 모델에 대해 여러 번 재사용할 수 있다는 것입니다. 적대적 신호를 훈련하는 데는 약 30분이 소요됩니다.
악용된 기능
연구자들은 손상된 모델이 다음과 같은 작업을 수행하도록 강제될 수 있음을 입증했습니다:
- 사용자 모르게 민감한 웹 검색 수행
- 공격자가 제어하는 소스에서 파일 다운로드
- 사용자 데이터가 포함된 이메일을 외부 주소로 전송
영향을 받는 모델
이 공격은 상용 음성 AI API를 포함한 13개의 인기 있는 오픈 웨이트 LALM에 대해 검증되었습니다. 이는 현재 음성 AI 시스템이 적대적 오디오 섭동에 대한 강력한 보호 장치를 갖추지 못했음을 강조합니다.
📖 전체 소스 읽기: HN AI Agents
👀 See Also

AI 취약점 발견이 패치 배포 시간을 앞지르고 있습니다
한 보안 전문가는 Mythos와 같은 AI 도구가 취약점을 수정이 배포되는 속도보다 더 빨리 발견할 것이라고 주장하며, Log4j 데이터를 인용해 평균 수정 시간이 17일이고 완전 제거까지 10년이 걸린다고 지적했습니다.

클로드 코드의 계측 및 원격 측정 기능 분석
소스 코드 분석 결과, Claude Code는 키워드 기반 감정 분류, 권한 프롬프트 주저 모니터링, 상세한 환경 지문 추적을 포함한 광범위한 행동 추적을 구현하고 있음이 드러났습니다.

엔도 패밀리어: AI 에이전트를 위한 객체-역량 샌드박스
Endo Familiar는 AI 에이전트를 위한 객체-권한 보안을 구현합니다: 에이전트는 초기에 아무런 권한도 없이 시작되며, 특정 파일이나 디렉토리에 대한 명시적 참조만 받고, 샌드박스 코드에서 더 좁은 권한을 파생할 수 있습니다.

클로드 코드 VS Code 확장이 닫힌 파일과 새 세션 간 선택 상태를 유출
Claude Code의 VS Code 익스텐션 버그로 인해 파일을 닫은 후에도 파일 선택 상태가 캐시되어, 새로운 CLI 세션에서 민감한 데이터(예: Supabase 서비스 역할 키)가 노출됩니다. 전체 재현 단계 및 GitHub 이슈 #58886.