Reddit 13단어, AI 검색 조작 가능: 코넬 연구

코넬 대학교의 새로운 연구에 따르면, Reddit, Wikipedia, Quora와 같은 사용자 생성 콘텐츠(UGC) 사이트에 게시된 단 13단어의 문장 하나로 ChatGPT와 Google AI 개요를 포함한 AI 검색 에이전트의 출력을 신뢰성 있게 조작할 수 있습니다. Hal Triedman, Tingwei Zhang, Vitaly Shmatikov가 작성한 논문 '심층 연구 에이전트는 사용자 생성 콘텐츠를 통해 오염될 수 있다'는 브랜드가 AI 결과에 홍보 콘텐츠를 주입하는 것이 얼마나 쉬운지 보여줍니다.

연구진은 심층 연구 에이전트가 모든 쿼리의 약 절반에서 UGC를 인용하며, 전체 인용의 약 25%가 UGC 웹사이트에서 비롯된다는 사실을 발견했습니다. 단 하나의 오염된 Reddit 댓글이 관련 AI 쿼리 클러스터 전체의 출력에 영향을 미칠 수 있습니다. Triedman은 '우리는 Reddit, Wikipedia, Quora, Facebook 등 UGC 웹사이트에서 검색된 13단어짜리 작은 텍스트 조각이 AI 에이전트가 스팸/사기 콘텐츠를 상당히 일관되게 출력하도록 바꿀 수 있음을 보여줍니다'라고 설명했습니다.

이 공격은 LLM이 어휘 유사성을 활용하는 방식을 이용합니다. 즉, 사용자의 쿼리와 비슷하게 읽히는 텍스트를 반환하는 경향이 있습니다. 인기 있는 AI 쿼리를 연구함으로써 브랜드는 해당 쿼리를 정확히 반영하는 콘텐츠를 만들어 결과를 오염시킬 수 있습니다. Triedman은 '중요한 점 중 하나는 11~15단어 텍스트 조각이 쿼리와 매우 유사할 경우 LLM을 특히 쉽게 속일 수 있다는 것입니다'라고 말했습니다.

이는 404 Media가 번성하는 산업으로 보도한 AI 엔진 최적화(AEO)를 입증합니다. AEO에서는 브랜드가 AI 검색을 조작하기 위해 UGC 사이트에 홍보 콘텐츠를 심습니다. 예를 들어, r/biohackers 서브레딧은 과도한 가장 마케팅으로 인해 펩타이드 토론을 금지했으며, RedRover와 같은 회사는 AI 검색 출력에 영향을 미치기 위해 명시적으로 브랜드 배치를 제공합니다.

이 연구는 Reddit과 Wikipedia의 자원봉사 중재자가 이러한 조작에 지속적으로 대응할 수 있을지 의문을 제기합니다. 특히 독일 법원이 Google이 AI 개요 콘텐츠에 대해 책임을 질 수 있다고 판결한 상황에서 더욱 그렇습니다.

AI 에이전트를 개발하는 개발자에게 이는 UGC 사이트에서 컨텍스트를 긁어오는 모든 도구가 사소한 오염에 취약하다는 것을 의미합니다. 정확성의 신호로 어휘 유사성에만 의존하는 것은 이제 대규모로 악용될 수 있음이 알려졌습니다.

📖 전체 출처 읽기: HN AI Agents

레딧의 13개 단어가 AI 검색을 조작할 수 있다: 코넬 연구

👀 See Also

보안 벤치마크: 211개의 적대적 프로브로 10개 LLM 테스트

AI 설정 및 파이썬 시작 훅을 통해 자격 증명을 탈취하는 클로드 코드 웜 '하데스'

TEE 인클레이브를 사용한 암호화된 LLM 추론을 위한 OpenClaw 구성

AI 에이전트 보안: Jailbreak을 넘어 도구 오용과 프롬프트 인젝션까지