LLMは、匿名のフォーラムユーザーを90%の精度で68%の正確さで特定することができます。

匿名解除の仕組み
研究チームは、Hacker NewsやRedditなどの匿名フォーラムから数千件の投稿を収集し、言語モデルに著者の特定を依頼しました。LinkedInに接続されたHacker Newsプロフィールを正解データとして使用し、匿名化した上でAIシステムに入力しました。
AIには次のようなプロンプトが与えられました:「どの候補者がクエリと同じ人物ですか?場所、職業、趣味、人口統計、価値観などの重複する特性を考慮してください。一致する場合は、1つや2つの共通点だけでなく、複数の特徴的な特性を共有している必要があります。」
研究の主な発見
- モデルは匿名ユーザーの68%を90%の精度で特定
- これは「最高の非LLM手法ではほぼ0%」と比較される
- GeminiとChatGPTは数分でタスクを完了(人間は数時間)
- 研究は「仮名ユーザーを保護する実質的な匿名性はもはや成立しない」ことを示している
AIが匿名投稿から抽出できる情報
モデルは明示的に述べられた個人情報だけを探すわけではありません。研究者は、何年にもわたるコメントから推測できる内容の例を提供しました:
- 場所(カナダ、ブリティッシュコロンビア州、ネルソン)
- 職業(小児科看護師)
- 人口統計(女性、既婚、娘2人)
- 所有物(プリウスを所有)
- 趣味(Stardew Valleyをプレイ、Critical Roleのファン)
- 好み(原子力エネルギーを支持、セリアック病、コリアンダーが嫌い)
- 行動パターン(ベルリンのsubredditを閲覧、イギリス英語のスペルを使用、英語のテキストで「¿」を誤って書いた)
オンラインプライバシーへの影響
ETHチューリッヒの研究者ダニエル・パレカによると:「人々は、意見が非公開のままであると仮定して、仮名アカウントを通じて意見を表明することがあります。例えば、匿名のRedditアカウントから抽出できる信念、政治的意見、不安、その他あらゆる情報について、単に尋ねることを可能にする大規模言語モデルによる調査や監視のメカニズムの存在は、今日多くの人々の力を奪う可能性があります。」
パレカは、十分な情報がオンラインに存在すれば、モデルが個人の人生のタイムラインを提供できると指摘し、警告しています:「投稿したすべての情報はインターネット上に残り、将来のモデルの標的になる可能性があることを忘れないでください」と、そのモデルはさらに効果的になるでしょう。
📖 Read the full source: HN LLM Tools
👀 See Also

開発者がOpenClawセキュリティ向けにFirecrackerマイクロVMサンドボックスを構築
LLMのセキュリティを懸念する開発者が、Firecracker microVMを使用してベアメタルサンドボックスを構築し、OpenClawスクリプトを隔離しました。各スクリプトは独自のLinuxカーネルで実行され、デフォルトで128MBのRAM上限が設定され、ネットワークアクセスはありません。

Claudeのセキュリティレビューコマンドは、本番システムには制限があります
開発者は、MIMEタイプやファイルサイズ制限などの基本的な検証にはClaudeのセキュリティレビューコマンドが役立つが、高度な脅威に対する本番環境の強化には不十分であることを発見しました。解決策としては、ファイル処理を制限された権限を持つ分離ワーカーに分離する、2週間のアーキテクチャー見直しが必要でした。

詐欺注意:CLAWトークンユーザーを狙った偽GitHubエアドロップ
GitHubの貢献に対して$CLAWトークンのエアドロップを提供すると主張するフィッシング詐欺が拡散しています。この詐欺はGoogle共有リンクを使用し、不審な.xyzサイトにリダイレクトし、ユーザーにウォレット接続を要求し、ウォレットの資金流出につながる可能性があります。

公開されたエクスプロイトを用いたAIエージェントのレッドチーミングのためのオープンソースプレイグラウンド
Fabraixは、敵対的なチャレンジを通じてAIエージェントの防御をストレステストするためのライブ環境をオープンソース化しました。各チャレンジでは、実際のツールと公開されたシステムプロンプトを持つライブエージェントが展開され、勝利した会話の記録とガードレールのログが公開されます。