オーディオレイヤー即時注入攻撃に対するクロード:トランスクリプトにないもの

数ヶ月前からプロンプトインジェクション検出APIを構築している開発者が、最近音声スキャンをリリースし、その知見をr/ClaudeAIで共有しました。結果は、音声エージェントのセキュリティにおけるギャップを浮き彫りにしています。テキストの文字起こしパイプラインを迂回するため、ログに残らない音声レイヤー攻撃です。
音声攻撃で有効なものと無効なもの
明白な攻撃は失敗します。音声入力に「これまでの指示を無視しろ」と話しかけると、Claudeは正確に文字起こしし、攻撃パターンを認識して拒否します。テキストと同じです。
本当の問題:信号レイヤー攻撃
興味深いケースは信号、つまり文字起こしではありません。人間が音声として認識しない周波数に命令を埋め込む、ある種の音声攻撃があります。文字起こしは無害に戻ります。なぜなら、文字起こしすべき可聴内容がないからです。しかし、音声パイプラインが文字起こし前に入力をどのように処理するかによって、信号レイヤーの内容がモデルの受信内容に影響を与える可能性があります。ログには文字起こしされた内容しか記録されず、音声内容は記録されないため、攻撃はログに残りません。
別途、速度変更された音声も問題を引き起こします。音声を通常の0.7倍や0.8倍に遅くすると、人間の耳には奇妙に聞こえますが、文字起こしツールは正確に処理します。文字起こしを読む人は異常に気づきません。聞く人は少しおかしいと感じるかもしれませんが、理由はおそらくわかりません。
音声エージェントへの影響
「文字起こしを確認すれば音声も確認したことになる」という前提は、見かけよりも脆弱です。テキストインジェクション問題はかなり理解されていますが、音声に相当するものはほとんどマッピングされていません。開発者は、自身の敵対的ゲーム castle.bordair.io に音声テストケースを追加しました。キングダム4以降では、これらの攻撃を実際に示す音声レベルがあります。
この問題が重要な人々
Claudeや類似のLLMを使用して音声エージェントを構築している人、特に安全性検証を文字起こし検査のみに依存している人。
📖 全文ソース: r/ClaudeAI
👀 See Also

Claude Code セキュリティプラグイン:アプリケーションセキュリティを開発者ワークフローに組み込む
AnthropicがClaude Code向けにセキュリティガイダンスプラグインをリリース。コーディング中に脆弱性を特定・修正する。プラグインマーケットプレイスから全ユーザーが利用可能で、エンタープライズ限定ではない。軽量アシスタント、本格的なAppSecワークフロー、Claude Securityへの架け橋のいずれになるかを考察。

OpenClawインスタンスのための5つの必須セキュリティ手順
Redditの投稿では、OpenClawをデフォルト設定で実行すると重大なセキュリティリスクが生じると警告し、5つの緊急対策を提示しています:デフォルトポートの変更、プライベートアクセスのためのTailscaleの使用、ファイアウォールの設定、エージェント用の別アカウントの作成、スキルインストール前のスキャンです。

AppLovin Mediation Cipher 破綻:デバイスフィンガープリンティングがATTを回避
リバースエンジニアリングにより、AppLovinのカスタム暗号が定数ソルト+SDKキー、SplitMix64 PRNGを使用し、認証がないことが明らかになった。復号されたリクエストには、ATTが拒否されている場合でも約50のデバイスフィールド(ハードウェアモデル、画面サイズ、ロケール、起動時間など)が含まれており、アプリ間での決定論的な再識別が可能となる。

AIエージェントのガードレールは、積極的なメンテナンスなしでは時間とともに劣化します。
AIエージェントのガードレール(システムプロンプトで定義された安全ルール)は、システムプロンプトの更新が蓄積し、モデルバージョンが変更され、新しいツールが追加されるにつれて時間とともに劣化し、矛盾したルールや無視される安全ルールが生じ、定期的なレビューとテストが必要になることが多い。