Reddit manipule la recherche IA : étude Cornell

Une nouvelle recherche de l'Université Cornell démontre qu'un seul extrait de 13 mots sur des sites de contenu généré par les utilisateurs (UGC) comme Reddit, Wikipedia ou Quora peut manipuler de manière fiable la sortie des agents de recherche IA – y compris ChatGPT et les aperçus IA de Google. L'article, 'Deep-research agents can be poisoned via user-generated content', par Hal Triedman, Tingwei Zhang et Vitaly Shmatikov, révèle à quel point il est trivial pour les marques d'injecter du contenu promotionnel dans les résultats IA.

Les chercheurs ont constaté que les agents de recherche approfondie citent l'UGC dans environ la moitié de toutes les requêtes, et près de 25% de toutes les citations proviennent de sites UGC. Un seul commentaire Reddit empoisonné peut influencer les sorties pour tout un ensemble de requêtes IA connexes. Triedman a expliqué : 'Nous montrons qu'un minuscule extrait – seulement 13 mots – de texte récupéré sur un site UGC comme Reddit, Wikipedia, Quora, Facebook, etc. peut changer les agents IA pour qu'ils produisent du contenu spam/arnaques de manière assez cohérente.'

L'attaque exploite la manière dont les LLM utilisent la similarité lexicale : ils ont tendance à renvoyer un texte qui ressemble à la requête de l'utilisateur. En étudiant les requêtes IA populaires, les marques peuvent créer un contenu qui reflète exactement ces requêtes, empoisonnant les résultats. 'L'un des points critiques est que si un extrait de 11 à 15 mots est très similaire à la requête, il peut être particulièrement convaincant pour un LLM', a déclaré Triedman.

Cela valide ce que 404 Media a rapporté comme une industrie en plein essor : l'optimisation pour les moteurs IA (AEO), où les marques ensemencent les sites UGC avec du contenu promotionnel pour manipuler la recherche IA. Les exemples incluent le subreddit r/biohackers interdisant les discussions sur les peptides en raison d'un astroturfing écrasant, et des entreprises comme RedRover proposant des placements de marque explicitement pour influencer les résultats de recherche IA.

La recherche soulève des questions sur la capacité des modérateurs bénévoles sur Reddit et Wikipedia à se défendre durablement contre cette manipulation, d'autant plus qu'un tribunal allemand a statué que Google peut être tenu responsable du contenu des aperçus IA.

Pour les développeurs construisant des agents IA : cela signifie que tout outil qui récupère des sites UGC pour du contexte est vulnérable à un empoisonnement trivial. Se fier uniquement à la similarité lexicale comme signal de précision est désormais connu pour être exploitable à grande échelle.

📖 Lire la source complète : HN AI Agents

13 mots sur Reddit peuvent manipuler la recherche IA : recherche Cornell

👀 See Also

Exploitation assistée par LLM : Aperçu du Mythos d'Anthropic a aidé à construire la première exploitation publique du noyau macOS sur Apple M5 en cinq jours.

Approche de sécurité OpenClaw utilisant le routeur LLM et le partage privé zrok

Scanner d'Injection de Prompt de Modèle Local pour la Sécurité des Compétences IA

Vulnérabilité de l'interface en ligne de commande (CLI) de Snowflake Cortex Code permettant une échappée du bac à sable et l'exécution de logiciels malveillants