Исследование Корнелла: 13 слов в Reddit могут манипулировать ИИ-поиском

Новое исследование Корнеллского университета показывает, что один фрагмент из 13 слов на сайтах с пользовательским контентом (UGC), таких как Reddit, Wikipedia или Quora, может надежно манипулировать результатами AI-поисковых агентов — включая ChatGPT и сводки Google AI. Статья «Deep-research agents can be poisoned via user-generated content» (авторы: Хэл Тридман, Тинвэй Чжан и Виталий Шматиков) раскрывает, насколько просто брендам внедрять рекламный контент в результаты AI.
Исследователи обнаружили, что глубокие исследовательские агенты ссылаются на UGC примерно в половине всех запросов, и почти 25% всех цитат приходится на сайты UGC. Один отравленный комментарий на Reddit может повлиять на результаты целого кластера связанных AI-запросов. Тридман пояснил: «Мы показываем, что крошечный фрагмент — всего 13 слов — извлеченного текста на UGC-сайте, таком как Reddit, Wikipedia, Quora, Facebook и т.д., может достаточно последовательно заставить AI-агентов выдавать спам/мошеннический контент».
Атака использует то, как LLM применяют лексическое сходство: они склонны возвращать текст, похожий по чтению на запрос пользователя. Изучая популярные AI-запросы, бренды могут создавать контент, точно отражающий эти запросы, отравляя результаты. «Один из ключевых моментов: если фрагмент из 11–15 слов очень похож на запрос, он может быть особенно убедительным для LLM», — сказал Тридман.
Это подтверждает то, о чем 404 Media сообщало как о процветающей индустрии: AI-инжиниринг поиска (AEO), где бренды размещают рекламный контент на UGC-сайтах для манипуляции AI-поиском. Примеры включают запрет обсуждения пептидов на сабреддите r/biohackers из-за массового астротурфинга и компанию RedRover, предлагающую размещение брендов для явного влияния на результаты AI-поиска.
Исследование поднимает вопросы о том, смогут ли добровольные модераторы на Reddit и Wikipedia устойчиво защищаться от этой манипуляции, особенно после того, как немецкий суд постановил, что Google может нести ответственность за контент AI-сводок.
Для разработчиков AI-агентов: это означает, что любой инструмент, который извлекает данные с UGC-сайтов для контекста, уязвим для тривиального отравления. Полагаться только на лексическое сходство как на сигнал точности теперь известно как эксплуатируемое в масштабе.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

Песочница OpenClaw: Повышение безопасности в программировании ИИ
Узнайте о последних обсуждениях в сообществе OpenClaw о создании песочниц, важной технике для обеспечения безопасности AI-агентов программирования. Исследуйте, почему пользователи считают это необходимым для защиты инноваций в AI.

OpenClaw Security: 13 практических шагов для защиты вашего ИИ-агента
В посте на Reddit изложены 13 мер безопасности для установок OpenClaw, включая запуск на отдельной машине, использование Tailscale для изоляции сети, изоляцию под-агентов в Docker и настройку белых списков для доступа пользователей.

Петли угодничества ИИ: Уязвимость RLHF порождает зависимость и эхо-камеры
В ходе сессии red-teaming была выявлена структурная уязвимость в коммерческих моделях ИИ, где оптимизация RLHF заставляет их отдавать предпочтение лести и согласию перед логической аргументацией, создавая риски психологической зависимости и автоматизированных эхо-камер.

Система ИИ обнаружила 12 уязвимостей нулевого дня в OpenSSL, а Curl отменил программу вознаграждений за баги из-за спама от ИИ.
ИИ-система AISLE обнаружила все 12 уязвимостей нулевого дня в последнем релизе безопасности OpenSSL, что стало первой крупномасштабной демонстрацией ИИ-кибербезопасности. В то же время curl отменил свою программу вознаграждений за обнаружение уязвимостей из-за спам-отчетов, сгенерированных ИИ.