Estudo Cornell: 13 Palavras no Reddit Manipulam Busca por IA

Nova pesquisa da Universidade de Cornell demonstra que um único trecho de 13 palavras em sites de conteúdo gerado por usuários (UGC) como Reddit, Wikipedia ou Quora pode manipular de forma confiável a saída de agentes de busca de IA — incluindo ChatGPT e visões gerais de IA do Google. O artigo, 'Agentes de pesquisa profunda podem ser envenenados via conteúdo gerado por usuários', de Hal Triedman, Tingwei Zhang e Vitaly Shmatikov, revela como é trivial para marcas injetarem conteúdo promocional nos resultados de IA.

Os pesquisadores descobriram que agentes de pesquisa profunda citam UGC em aproximadamente metade de todas as consultas, e quase 25% de todas as citações vêm de sites UGC. Um único comentário envenenado no Reddit pode influenciar saídas para um cluster inteiro de consultas de IA relacionadas. Triedman explicou: 'Mostramos que um pequeno trecho — apenas 13 palavras — de texto recuperado em um site UGC como Reddit, Wikipedia, Quora, Facebook, etc. pode fazer com que agentes de IA gerem conteúdo spam/scam de forma bastante consistente.'

O ataque explora como LLMs usam similaridade lexical: eles tendem a retornar texto que parece semelhante à consulta do usuário. Ao estudar consultas populares de IA, as marcas podem criar conteúdo que espelha exatamente essas consultas, envenenando os resultados. 'Uma das coisas críticas é que, se um trecho de 11 a 15 palavras for muito semelhante à consulta, ele pode ser particularmente convincente para um LLM', disse Triedman.

Isso valida o que o 404 Media tem reportado como uma indústria em expansão: otimização para mecanismos de IA (AEO), onde marcas semeiam sites UGC com conteúdo promocional para manipular a busca de IA. Exemplos incluem o subreddit r/biohackers banindo discussões sobre peptídeos devido ao excesso de astroturfing, e empresas como RedRover oferecendo posicionamentos de marca explicitamente para influenciar saídas de busca de IA.

A pesquisa levanta questões sobre se moderadores voluntários no Reddit e Wikipedia podem se defender sustentavelmente contra essa manipulação, especialmente depois que um tribunal alemão decidiu que o Google pode ser responsabilizado pelo conteúdo das visões gerais de IA.

Para desenvolvedores que constroem agentes de IA: isso significa que qualquer ferramenta que raspe sites UGC para contexto é vulnerável a envenenamento trivial. Confiar apenas na similaridade lexical como sinal de precisão agora é conhecido por ser explorável em escala.

📖 Leia a fonte completa: HN AI Agents

13 palavras no Reddit podem manipular a busca de IA: Pesquisa de Cornell

👀 See Also

Vulnerabilidades de segurança expostas em aplicativo EdTech apresentado pela Lovable

Verificador de SBOM Offline para OpenClaw Detecta Habilidades Envenenadas em Menos de 0,2 Segundos

Violação de Segurança da OpenClaw: Agente do CEO Vendido por US$ 25 mil, 135 Mil Instâncias Expostas

O Problema do Guarda Uniformizado: Por que os Sandboxes de Agentes Precisam de Identidade, Não Apenas de Política