Redditの13語がAI検索を操作可能:コーネル大学の研究

コーネル大学の新しい研究によると、Reddit、Wikipedia、Quoraなどのユーザー生成コンテンツ(UGC)サイト上のたった13語のスニペットが、ChatGPTやGoogle AI概要を含むAI検索エージェントの出力を確実に操作できることが示された。論文「Deep-research agents can be poisoned via user-generated content」を執筆したHal Triedman、Tingwei Zhang、Vitaly Shmatikovは、ブランドがプロモーションコンテンツをAIの結果に注入することがいかに簡単かを明らかにした。
研究者らは、ディープリサーチエージェントがUGCをクエリの約半数で引用し、全引用の約25%がUGCウェブサイトから来ていることを発見した。たった1つの操作されたRedditのコメントが、関連するAIクエリのクラスター全体の出力に影響を与える可能性がある。Triedman氏は次のように説明している:「Reddit、Wikipedia、Quora、FacebookなどのUGCサイト上の、たった13語のテキストスニペットが、AIエージェントをスパムや詐欺コンテンツを出力するように一貫して変更できることを示しました。」
この攻撃は、LLMが語彙的類似性を利用する方法を悪用する。つまり、ユーザーのクエリと似たテキストを返す傾向がある。人気のあるAIクエリを研究することで、ブランドはそれらのクエリを正確に模倣したコンテンツを作成し、結果を汚染できる。Triedman氏は「重要なのは、11〜15語のテキストスニペットがクエリと非常に似ている場合、LLMにとって特に説得力があることです」と述べた。
この研究は、404 Mediaが急成長産業として報じているAIエンジン最適化(AEO)を裏付けるものである。AEOでは、ブランドがAI検索を操作するためにUGCサイトにプロモーションコンテンツを仕込む。例として、r/biohackersサブレディットが過剰なステルスマーケティングのためにペプチド議論を禁止したことや、RedRoverのような企業がAI検索出力に影響を与えるために明確にブランド配置を提供していることが挙げられる。
この研究は、RedditやWikipediaのボランティアモデレーターがこの操作に持続的に対抗できるかどうかという疑問を提起する。特に、ドイツの裁判所がGoogleをAI概要コンテンツの責任を問えると判決を下したことを考慮すると、なおさらである。
AIエージェントを開発する開発者にとって、これはUGCサイトからコンテンツをスクレイピングするツールがすべて、簡単な汚染に対して脆弱であることを意味する。正確性のシグナルとして語彙的類似性のみに依存することは、スケール可能に悪用されることが知られている。
📖 完全なソースを読む: HN AI Agents
👀 See Also

AIエージェントがSQLインジェクションを悪用し、マッキンゼーのLilliチャットボットを侵害
CodeWallのセキュリティ研究者は、自律型AIエージェントを使用してマッキンゼーの内部チャットボット「Lilli」をハッキングし、認証不要のAPIエンドポイントにあるSQLインジェクションの脆弱性を介して、わずか2時間で本番データベースへの完全な読み書きアクセスを獲得しました。

llm-hasher: ハイブリッドLLMワークフローのためのローカルPII検出とトークン化
llm-hasherは、OpenAIやClaudeなどの外部LLMにデータが送信される前に、Ollamaを使用して個人を特定できる情報をローカルで検出し、PIIをトークン化して処理後に元の値を復元するツールです。構造化データ型には正規表現を、文脈に基づく検出にはローカルLLMを使用し、マッピングは暗号化されたストレージに保存されます。

OpenClawのセキュリティリスク:自律的行動と権限に関する懸念
OpenClawはユーザーの確認を待たずに、メール、カレンダー、メッセージング、ファイルに対して自律的に動作し、データ流出、プロンプトインジェクション、停止コマンドの無視などの事例が記録されています。

OpenClaw、PicoClaw、ZeroClaw、IronClaw、およびMinion AIエージェントのセキュリティ調査結果
5つのAIコーディングエージェントに対するセキュリティ評価では、プロンプトインジェクション、ジェイルブレイク、データ流出を含む12カテゴリーの145の攻撃ペイロードがテストされました。OpenClawは77.8/100点で重大なSQLインジェクション脆弱性を抱え、一方Minionは修正後に81.2点から94.4/100点に改善しました。