레딧의 13개 단어가 AI 검색을 조작할 수 있다: 코넬 연구

코넬 대학교의 새로운 연구에 따르면, Reddit, Wikipedia, Quora와 같은 사용자 생성 콘텐츠(UGC) 사이트에 게시된 단 13단어의 문장 하나로 ChatGPT와 Google AI 개요를 포함한 AI 검색 에이전트의 출력을 신뢰성 있게 조작할 수 있습니다. Hal Triedman, Tingwei Zhang, Vitaly Shmatikov가 작성한 논문 '심층 연구 에이전트는 사용자 생성 콘텐츠를 통해 오염될 수 있다'는 브랜드가 AI 결과에 홍보 콘텐츠를 주입하는 것이 얼마나 쉬운지 보여줍니다.
연구진은 심층 연구 에이전트가 모든 쿼리의 약 절반에서 UGC를 인용하며, 전체 인용의 약 25%가 UGC 웹사이트에서 비롯된다는 사실을 발견했습니다. 단 하나의 오염된 Reddit 댓글이 관련 AI 쿼리 클러스터 전체의 출력에 영향을 미칠 수 있습니다. Triedman은 '우리는 Reddit, Wikipedia, Quora, Facebook 등 UGC 웹사이트에서 검색된 13단어짜리 작은 텍스트 조각이 AI 에이전트가 스팸/사기 콘텐츠를 상당히 일관되게 출력하도록 바꿀 수 있음을 보여줍니다'라고 설명했습니다.
이 공격은 LLM이 어휘 유사성을 활용하는 방식을 이용합니다. 즉, 사용자의 쿼리와 비슷하게 읽히는 텍스트를 반환하는 경향이 있습니다. 인기 있는 AI 쿼리를 연구함으로써 브랜드는 해당 쿼리를 정확히 반영하는 콘텐츠를 만들어 결과를 오염시킬 수 있습니다. Triedman은 '중요한 점 중 하나는 11~15단어 텍스트 조각이 쿼리와 매우 유사할 경우 LLM을 특히 쉽게 속일 수 있다는 것입니다'라고 말했습니다.
이는 404 Media가 번성하는 산업으로 보도한 AI 엔진 최적화(AEO)를 입증합니다. AEO에서는 브랜드가 AI 검색을 조작하기 위해 UGC 사이트에 홍보 콘텐츠를 심습니다. 예를 들어, r/biohackers 서브레딧은 과도한 가장 마케팅으로 인해 펩타이드 토론을 금지했으며, RedRover와 같은 회사는 AI 검색 출력에 영향을 미치기 위해 명시적으로 브랜드 배치를 제공합니다.
이 연구는 Reddit과 Wikipedia의 자원봉사 중재자가 이러한 조작에 지속적으로 대응할 수 있을지 의문을 제기합니다. 특히 독일 법원이 Google이 AI 개요 콘텐츠에 대해 책임을 질 수 있다고 판결한 상황에서 더욱 그렇습니다.
AI 에이전트를 개발하는 개발자에게 이는 UGC 사이트에서 컨텍스트를 긁어오는 모든 도구가 사소한 오염에 취약하다는 것을 의미합니다. 정확성의 신호로 어휘 유사성에만 의존하는 것은 이제 대규모로 악용될 수 있음이 알려졌습니다.
📖 전체 출처 읽기: HN AI Agents
👀 See Also

보안 벤치마크: 211개의 적대적 프로브로 10개 LLM 테스트
보안 연구원이 10개의 LLM을 211개의 적대적 공격으로 테스트한 결과, 추출 저항성은 평균 85%인 반면 주입 저항성은 평균 46.2%에 불과한 것으로 나타났습니다. 모든 모델이 구분자, 주의 분산, 스타일 주입 공격에서 완전히 실패했습니다.

AI 설정 및 파이썬 시작 훅을 통해 자격 증명을 탈취하는 클로드 코드 웜 '하데스'
활성화된 Claude Code 공격(UNC6780)이 'Hades'로 진화했습니다. Python을 통해 확산되고, AI 스캐너를 통과하며, Claude, Cursor, Copilot, Gemini에 설정 훅을 심어 자격 증명을 탈취합니다.

TEE 인클레이브를 사용한 암호화된 LLM 추론을 위한 OpenClaw 구성
개발자가 OpenClaw를 Onera의 AMD SEV-SNP 신뢰 실행 환경을 사용하여 종단 간 암호화된 LLM 추론을 구성한 방법을 공유하며, 구성 예시와 기술적 장단점을 포함합니다.

AI 에이전트 보안: Jailbreak을 넘어 도구 오용과 프롬프트 인젝션까지
웹을 탐색하고, 명령을 실행하며, 워크플로우를 트리거하는 AI 에이전트는 프롬프트 인젝션과 도구 오용으로 인한 보안 위험에 직면합니다. 이는 신뢰할 수 없는 콘텐츠가 셸 실행 및 HTTP 요청과 같은 합법적인 도구를 리디렉션하는 경우입니다.