グループチャットアシスタントにおけるプロンプトインジェクション対策

r/ClaudeAIの投稿「グループチャットアシスタントにおけるプロンプトインジェクション対策：VMとOAuthツール実行を一時停止し管理者承認を求める」は、公開または共有チャンネル（例：Supergreen経由のWhatsAppやグループチャット）に接続されたLLMベースのアシスタント向けの実践的なセキュリティパターンを説明しています。主な問題は、複数のユーザーが同じセッション履歴を共有する場合、参加者がアシスタントにプロンプトインジェクションを仕掛け、危険なツール（クラウドリソースの起動、マッピングされたシークレットを使ったコード実行、OAuthトークンの取得など）を実行させる可能性があることです。

安全な管理者承認フロー

prompt2botで提案されている解決策は、リスクの高いツール実行をインターセプトする安全な管理者承認フローです。

管理者以外のユーザーがcreate_vm、run_safescript（マッピングされたシークレットを使うカスタムコード実行）、またはOAuthフローをトリガーすると、ツールは実行を一時停止し、「管理者の許可をリクエスト中…」と返します。
10分間のTTLを持つ承認リンクが、設定された管理者にWhatsAppまたはメールで自動送信されます。
承認されると、バックグラウンドジョブが会話履歴にシステム通知を注入します：[システム通知：管理者が<toolName>の実行リクエスト（リクエストID：<requestId>）を承認しました]
この思考注入によりエージェントループが起動し、承認されたrequest_idを使ってツールを再呼び出し、シームレスに続行します。
ゲストユーザー（メールや電話が設定されていないボット所有者）の場合、承認はバイパスされ、開発者のテストが容易になります。