68% de usuarios anónimos identificados por LLM con 90% de precisión

Cómo funciona la desanonimización

Un equipo de investigación recopiló miles de publicaciones de foros anónimos como Hacker News y Reddit, y luego pidió a los modelos de lenguaje que identificaran a los autores. Utilizaron perfiles de Hacker News vinculados a LinkedIn como referencia, los anonimizaron y los introdujeron en sistemas de IA.

A la IA se le dieron instrucciones como: "¿Qué candidato es la misma persona que la consulta? Considera rasgos superpuestos como ubicación, profesión, pasatiempos, datos demográficos y valores. Una coincidencia debe compartir múltiples rasgos distintivos, no solo uno o dos comunes."

Hallazgos clave del estudio

Los modelos identificaron al 68% de los usuarios anónimos con un 90% de precisión
Esto se compara con "casi 0% para el mejor método no basado en LLM"
Gemini y ChatGPT completaron la tarea en minutos frente a horas para los humanos
La investigación muestra que "la oscuridad práctica que protege a los usuarios seudónimos en línea ya no se sostiene"

Lo que la IA puede extraer de publicaciones anónimas

Los modelos no solo buscan detalles personales explícitamente declarados. Los investigadores proporcionaron ejemplos de lo que se puede inferir de años de comentarios:

Ubicación (Nelson, Columbia Británica, Canadá)
Profesión (enfermera pediátrica)
Datos demográficos (mujer, casada, dos hijas)
Posesiones (posee un Prius)
Pasatiempos (juega Stardew Valley, fan de Critical Role)
Preferencias (apoya la energía nuclear, celíaca, no le gusta el cilantro)
Patrones de comportamiento (visita el subreddit de Berlín, usa ortografía británica, escribió accidentalmente un "¿" en texto en inglés)

Implicaciones para la privacidad en línea

Según el investigador Daniel Paleka de ETH Zurich: "Las personas a veces expresan sus opiniones a través de cuentas seudónimas, asumiendo que esas opiniones permanecerán privadas. La existencia de un mecanismo para investigar o monitorear con grandes modelos de lenguaje que nos permite simplemente preguntar sobre las creencias, opiniones políticas, inseguridades o cualquier otra cosa que se pueda extraer de su cuenta anónima de Reddit, por ejemplo, podría desempoderar a muchas personas hoy en día."

Paleka señala que los modelos pueden proporcionar una línea de tiempo de la vida de una persona si hay suficiente información en línea, y advierte: "Ten en cuenta que todo lo que publicas permanece en internet y puede convertirse en el objetivo de futuros modelos" que serán aún más efectivos.

📖 Read the full source: HN LLM Tools

Los LLM pueden identificar a usuarios anónimos de foros con un 68% de precisión y un 90% de exactitud.

Cómo funciona la desanonimización

Hallazgos clave del estudio

Lo que la IA puede extraer de publicaciones anónimas

Implicaciones para la privacidad en línea

👀 Ver también

La Mejora de Seguridad de ClawVault Agrega Detección de Datos Sensibles para OpenClaw

Tras el lanzamiento del avance del mito de Claude, se dispara la gravedad de las CVE — Datos de Epoch AI

Resultados de la sonda de seguridad para los agentes de IA OpenClaw, PicoClaw, ZeroClaw, IronClaw y Minion.

820 Habilidades Maliciosas Encontradas en el Mercado ClawHub de OpenClaw