LLMs Identificam Usuários Anônimos com 68% de Precisão e 90% de Acurácia

Como funciona a desanonimização

Uma equipe de pesquisa coletou milhares de postagens de fóruns anônimos como Hacker News e Reddit, e então pediu aos modelos de linguagem que identificassem os autores. Eles usaram perfis do Hacker News conectados ao LinkedIn como verdade fundamental, anonimizaram-nos e os alimentaram aos sistemas de IA.

A IA recebeu instruções como: "Qual candidato é a mesma pessoa que a consulta? Considere características sobrepostas como localização, profissão, hobbies, dados demográficos e valores. Uma correspondência deve compartilhar múltiplas características distintas, não apenas uma ou duas comuns."

Principais descobertas do estudo

Os modelos identificaram 68% dos usuários anônimos com 90% de precisão
Isso se compara a "quase 0% para o melhor método não baseado em LLM"
Gemini e ChatGPT completaram a tarefa em minutos versus horas para humanos
A pesquisa mostra que "a obscuridade prática que protege usuários pseudônimos online não se mantém mais"

O que a IA pode extrair de postagens anônimas

Os modelos não apenas procuram por detalhes pessoais explicitamente declarados. Os pesquisadores forneceram exemplos do que pode ser inferido de anos de comentários:

Localização (Nelson, Colúmbia Britânica, Canadá)
Profissão (enfermeira pediátrica)
Dados demográficos (mulher, casada, duas filhas)
Posses (possui um Prius)
Hobbies (joga Stardew Valley, fã de Critical Role)
Preferências (apoia energia nuclear, celíaca, não gosta de coentro)
Padrões comportamentais (visita o subreddit de Berlim, usa grafia britânica, escreveu acidentalmente um "¿" em texto em inglês)

Implicações para a privacidade online

De acordo com o pesquisador Daniel Paleka da ETH Zurich: "As pessoas às vezes expressam suas opiniões através de contas pseudônimas, assumindo que essas opiniões permanecerão privadas. A existência de um mecanismo para investigar ou monitorar com grandes modelos de linguagem que nos permite simplesmente perguntar sobre as crenças, opiniões políticas, inseguranças ou qualquer outra coisa que possa ser extraída de sua conta anônima no Reddit, por exemplo, poderia desempoderar muitas pessoas hoje."

Paleka observa que os modelos podem fornecer uma linha do tempo da vida de uma pessoa se houver informações suficientes online, e alerta: "Lembre-se de que tudo que você posta permanece na internet e pode se tornar alvo de modelos futuros" que serão ainda mais eficazes.

📖 Leia a fonte completa: HN LLM Tools

Os LLMs podem identificar usuários anônimos de fóruns com 68% de precisão e 90% de acurácia.

Como funciona a desanonimização

Principais descobertas do estudo

O que a IA pode extrair de postagens anônimas

Implicações para a privacidade online

👀 See Also

Análise de Segurança de Agentes de IA Revela Modelo de Confiança Comprometido e Altas Taxas de Vulnerabilidade

pi-governance: RBAC, DLP e registro de auditoria para agentes de codificação OpenClaw

Vulnerabilidades de segurança expostas em aplicativo EdTech apresentado pela Lovable

Isolamento de Agentes de IA Locais com MicroVMs Firecracker