Claudeへの音声レイヤープロンプトインジェクション：見過ごされたリスク

数ヶ月前からプロンプトインジェクション検出APIを構築している開発者が、最近音声スキャンをリリースし、その知見をr/ClaudeAIで共有しました。結果は、音声エージェントのセキュリティにおけるギャップを浮き彫りにしています。テキストの文字起こしパイプラインを迂回するため、ログに残らない音声レイヤー攻撃です。

音声攻撃で有効なものと無効なもの

明白な攻撃は失敗します。音声入力に「これまでの指示を無視しろ」と話しかけると、Claudeは正確に文字起こしし、攻撃パターンを認識して拒否します。テキストと同じです。

本当の問題：信号レイヤー攻撃

興味深いケースは信号、つまり文字起こしではありません。人間が音声として認識しない周波数に命令を埋め込む、ある種の音声攻撃があります。文字起こしは無害に戻ります。なぜなら、文字起こしすべき可聴内容がないからです。しかし、音声パイプラインが文字起こし前に入力をどのように処理するかによって、信号レイヤーの内容がモデルの受信内容に影響を与える可能性があります。ログには文字起こしされた内容しか記録されず、音声内容は記録されないため、攻撃はログに残りません。

別途、速度変更された音声も問題を引き起こします。音声を通常の0.7倍や0.8倍に遅くすると、人間の耳には奇妙に聞こえますが、文字起こしツールは正確に処理します。文字起こしを読む人は異常に気づきません。聞く人は少しおかしいと感じるかもしれませんが、理由はおそらくわかりません。

音声エージェントへの影響

「文字起こしを確認すれば音声も確認したことになる」という前提は、見かけよりも脆弱です。テキストインジェクション問題はかなり理解されていますが、音声に相当するものはほとんどマッピングされていません。開発者は、自身の敵対的ゲーム castle.bordair.io に音声テストケースを追加しました。キングダム4以降では、これらの攻撃を実際に示す音声レベルがあります。