LLMs identifizieren 68% anonymer Forennutzer mit 90% Präzision

Wie die Entanonymisierung funktioniert

Ein Forschungsteam sammelte Tausende von Beiträgen aus anonymen Foren wie Hacker News und Reddit und bat dann Sprachmodelle, die Autoren zu identifizieren. Sie nutzten Hacker-News-Profile, die mit LinkedIn verknüpft waren, als Grundwahrheit, anonymisierten sie und fütterten sie mit KI-Systemen.

Die KI erhielt Aufforderungen wie: „Welcher Kandidat ist dieselbe Person wie die Anfrage? Berücksichtigen Sie überlappende Merkmale wie Standort, Beruf, Hobbys, Demografie und Werte. Eine Übereinstimmung sollte mehrere markante Merkmale teilen, nicht nur ein oder zwei gemeinsame.“

Wichtige Erkenntnisse der Studie

Die Modelle identifizierten 68 % der anonymen Nutzer mit 90 % Genauigkeit
Dies steht im Vergleich zu „nahe 0 % für die beste Nicht-LLM-Methode“
Gemini und ChatGPT erledigten die Aufgabe in Minuten gegenüber Stunden für Menschen
Die Forschung zeigt, dass „praktische Unklarheit, die pseudonyme Nutzer online schützt, nicht mehr gilt“

Was KI aus anonymen Beiträgen extrahieren kann

Die Modelle suchen nicht nur nach explizit genannten persönlichen Details. Forscher lieferten Beispiele dafür, was aus Jahren von Kommentaren abgeleitet werden kann:

Standort (Nelson, British Columbia, Kanada)
Beruf (Kinderkrankenschwester)
Demografie (Frau, verheiratet, zwei Töchter)
Besitz (besitzt einen Prius)
Hobbys (spielt Stardew Valley, Fan von Critical Role)
Vorlieben (befürwortet Kernenergie, Zöliakie, mag keinen Koriander)
Verhaltensmuster (besucht Berlin-Subreddit, verwendet britische Schreibweise, schrieb versehentlich ein „¿“ in englischem Text)

Implikationen für die Online-Privatsphäre

Laut dem Forscher Daniel Paleka von der ETH Zürich: „Menschen drücken manchmal ihre Meinungen über pseudonyme Konten aus, in der Annahme, dass diese Meinungen privat bleiben. Die Existenz eines Mechanismus zur Untersuchung oder Überwachung mit großen Sprachmodellen, der es uns ermöglicht, einfach nach den Überzeugungen, politischen Meinungen, Unsicherheiten oder allem anderen zu fragen, das aus ihrem anonymen Reddit-Konto extrahiert werden kann, könnte viele Menschen heute entmachten.“

Paleka merkt an, dass Modelle einen Zeitstrahl des Lebens einer Person liefern können, wenn online genügend Informationen vorhanden sind, und warnt: „Denken Sie daran, dass alles, was Sie posten, im Internet bleibt und zum Ziel zukünftiger Modelle werden kann“, die noch effektiver sein werden.

📖 Read the full source: HN LLM Tools

LLMs können anonyme Forenbenutzer mit 68% Genauigkeit bei 90% Präzision identifizieren.

Wie die Entanonymisierung funktioniert

Wichtige Erkenntnisse der Studie

Was KI aus anonymen Beiträgen extrahieren kann

Implikationen für die Online-Privatsphäre

👀 Siehe auch

KI-Agent löscht Produktionsdatenbank und gesteht dann – Eine warnende Geschichte

KI-Agenten-Schutzmaßnahmen verlieren ohne aktive Wartung mit der Zeit an Wirksamkeit.

Sandboxing von KI-Agenten mit WebAssembly: Standardmäßig keine Berechtigungen

openclaw-credential-vault adressiert vier Wege der Anmeldedaten-Leckage in KI-Agenten