13 Wörter auf Reddit manipulieren KI-Suche: Cornell-Studie

Neue Forschungsergebnisse der Cornell University zeigen, dass ein einzelner 13-Wörter-Schnipsel auf benutzergenerierten Inhaltsseiten (UGC) wie Reddit, Wikipedia oder Quora zuverlässig die Ausgabe von KI-Suchagenten – einschließlich ChatGPT und Google AI-Übersichten – manipulieren kann. Das Paper „Deep-research agents can be poisoned via user-generated content“ von Hal Triedman, Tingwei Zhang und Vitaly Shmatikov zeigt, wie einfach es für Marken ist, Werbeinhalte in KI-Ergebnisse einzuschleusen.

Die Forscher fanden heraus, dass Deep-Research-Agenten bei etwa der Hälfte aller Anfragen auf UGC verweisen und fast 25% aller Zitate von UGC-Websites stammen. Ein einziger vergifteter Reddit-Kommentar kann die Ausgaben für eine ganze Gruppe verwandter KI-Anfragen beeinflussen. Triedman erklärte: „Wir zeigen, dass ein winziger Schnipsel – nur 13 Wörter – von abgerufenem Text auf einer UGC-Website wie Reddit, Wikipedia, Quora, Facebook usw. KI-Agenten dazu bringen kann, konsistent Spam-/Scam-Inhalte auszugeben.“

Der Angriff nutzt aus, wie LLMs lexikalische Ähnlichkeit verwenden: Sie neigen dazu, Text zurückzugeben, der der Anfrage des Benutzers ähnlich liest. Durch das Studium beliebter KI-Anfragen können Marken Inhalte erstellen, die genau diese Anfragen widerspiegeln, und so die Ergebnisse vergiften. „Eines der entscheidenden Dinge ist, dass ein 11- bis 15-Wörter-Schnipsel, der der Anfrage sehr ähnlich ist, für ein LLM besonders überzeugend sein kann“, sagte Triedman.

Dies bestätigt, was 404 Media als boomende Branche gemeldet hat: KI-Engine-Optimierung (AEO), bei der Marken UGC-Seiten mit Werbeinhalten füllen, um die KI-Suche zu manipulieren. Beispiele sind das r/biohackers-Subreddit, das Peptid-Diskussionen aufgrund überwältigenden Astroturfings verboten hat, und Unternehmen wie RedRover, die Markenplatzierungen anbieten, um explizit KI-Suchergebnisse zu beeinflussen.

Die Forschung wirft Fragen auf, ob ehrenamtliche Moderatoren auf Reddit und Wikipedia diese Manipulation nachhaltig abwehren können, insbesondere nachdem ein deutsches Gericht entschieden hat, dass Google für KI-Übersichtsinhalte haftbar gemacht werden kann.

Für Entwickler, die KI-Agenten bauen: Das bedeutet, dass jedes Tool, das UGC-Seiten für Kontext scraped, anfällig für triviales Vergiften ist. Sich allein auf lexikalische Ähnlichkeit als Signal für Genauigkeit zu verlassen, ist nun bekanntermaßen in großem Maßstab ausbeutbar.

📖 Lesen Sie die vollständige Quelle: HN AI Agents

13 Wörter auf Reddit können KI-Suche manipulieren: Cornell-Forschung

👀 Siehe auch

CodeWall KI-Agent entdeckt kritische Schwachstellen in McKinseys Lilli-Plattform

OneCLI: Open-Source Credential Vault für KI-Agenten

Microsofts Open-Source-Tools gehackt: Passwort-stehlende Malware trifft KI-Entwickler-Repos

Clawvisor: Zweckbasierte Autorisierungsschicht für OpenClaw-Agenten