LLMが匿名ユーザーを68%特定、精度90%

匿名解除の仕組み

研究チームは、Hacker NewsやRedditなどの匿名フォーラムから数千件の投稿を収集し、言語モデルに著者の特定を依頼しました。LinkedInに接続されたHacker Newsプロフィールを正解データとして使用し、匿名化した上でAIシステムに入力しました。

AIには次のようなプロンプトが与えられました：「どの候補者がクエリと同じ人物ですか？場所、職業、趣味、人口統計、価値観などの重複する特性を考慮してください。一致する場合は、1つや2つの共通点だけでなく、複数の特徴的な特性を共有している必要があります。」

研究の主な発見

モデルは匿名ユーザーの68%を90%の精度で特定
これは「最高の非LLM手法ではほぼ0%」と比較される
GeminiとChatGPTは数分でタスクを完了（人間は数時間）
研究は「仮名ユーザーを保護する実質的な匿名性はもはや成立しない」ことを示している

AIが匿名投稿から抽出できる情報

モデルは明示的に述べられた個人情報だけを探すわけではありません。研究者は、何年にもわたるコメントから推測できる内容の例を提供しました：

場所（カナダ、ブリティッシュコロンビア州、ネルソン）
職業（小児科看護師）
人口統計（女性、既婚、娘2人）
所有物（プリウスを所有）
趣味（Stardew Valleyをプレイ、Critical Roleのファン）
好み（原子力エネルギーを支持、セリアック病、コリアンダーが嫌い）
行動パターン（ベルリンのsubredditを閲覧、イギリス英語のスペルを使用、英語のテキストで「¿」を誤って書いた）

オンラインプライバシーへの影響

ETHチューリッヒの研究者ダニエル・パレカによると：「人々は、意見が非公開のままであると仮定して、仮名アカウントを通じて意見を表明することがあります。例えば、匿名のRedditアカウントから抽出できる信念、政治的意見、不安、その他あらゆる情報について、単に尋ねることを可能にする大規模言語モデルによる調査や監視のメカニズムの存在は、今日多くの人々の力を奪う可能性があります。」

パレカは、十分な情報がオンラインに存在すれば、モデルが個人の人生のタイムラインを提供できると指摘し、警告しています：「投稿したすべての情報はインターネット上に残り、将来のモデルの標的になる可能性があることを忘れないでください」と、そのモデルはさらに効果的になるでしょう。

📖 Read the full source: HN LLM Tools