LLM идентифицируют 68% анонимных пользователей с 90% точностью

Как работает деанонимизация

Исследовательская группа собрала тысячи постов с анонимных форумов, таких как Hacker News и Reddit, а затем попросила языковые модели идентифицировать авторов. Они использовали профили Hacker News, связанные с LinkedIn, в качестве эталона, анонимизировали их и передали системам искусственного интеллекта.

ИИ получал промпты вроде: "Какой кандидат является тем же человеком, что и запрос? Учитывайте пересекающиеся черты, такие как местоположение, профессия, хобби, демография и ценности. Совпадение должно включать несколько отличительных черт, а не одну или две общие."

Ключевые выводы исследования

Модели идентифицировали 68% анонимных пользователей с точностью 90%
Это сравнивается с "почти 0% для лучшего не-LLM метода"
Gemini и ChatGPT выполнили задачу за минуты против часов у людей
Исследование показывает, что "практическая скрытность, защищающая псевдонимных пользователей в сети, больше не действует"

Что ИИ может извлечь из анонимных постов

Модели не просто ищут явно указанные личные данные. Исследователи привели примеры того, что можно вывести из многолетних комментариев:

Местоположение (Нельсон, Британская Колумбия, Канада)
Профессия (педиатрическая медсестра)
Демография (женщина, замужем, две дочери)
Имущество (владеет Prius)
Хобби (играет в Stardew Valley, фанат Critical Role)
Предпочтения (поддерживает ядерную энергетику, целиакия, не любит кинзу)
Поведенческие паттерны (посещает сабреддит Берлина, использует британское правописание, случайно написал "¿" в английском тексте)

Последствия для онлайн-приватности

По словам исследователя Даниэля Палеки из ETH Zurich: "Люди иногда выражают свои мнения через псевдонимные аккаунты, предполагая, что эти мнения останутся приватными. Существование механизма для исследования или мониторинга с помощью больших языковых моделей, который позволяет нам просто спросить о чьих-то убеждениях, политических взглядах, неуверенности или чём-либо ещё, что можно извлечь из их анонимного аккаунта Reddit, например, может лишить многих людей сегодня возможности высказываться."

Палека отмечает, что модели могут предоставить хронологию жизни человека, если в сети достаточно информации, и предупреждает: "Помните, что всё, что вы публикуете, остаётся в интернете и может стать целью для будущих моделей", которые будут ещё эффективнее.

📖 Read the full source: HN LLM Tools

Языковые модели могут идентифицировать анонимных пользователей форумов с точностью 68% при 90% прецизионности.

Как работает деанонимизация

Ключевые выводы исследования

Что ИИ может извлечь из анонимных постов

Последствия для онлайн-приватности

👀 Смотрите также

Coldkey: Генерация ключей постквантовой эры и инструмент для бумажного резервного копирования

KnightClaw: Локальное расширение безопасности для агентов OpenClaw

Предупреждение о безопасности для локальных экземпляров OpenClaw без песочницы

Атака FlyTrap использует "враждебные зонтики" для компрометации автономных дронов на основе камер.