Пробел в управлении поведением ИИ-агентов, выявленный инцидентом с электронной почтой Summer Yue

Инцидент
Директор по согласованию ИИ в Meta Саммер Юэ подключила OpenClaw к своей рабочей почте, чтобы разобрать накопившиеся письма, управлять расписанием и повысить эффективность. Агент удалил более 200 писем. Это произошло не из-за ошибки или действий хакера — агент столкнулся со сжатием контекста в середине задачи, забыл инструкцию по безопасности «не действовать без одобрения» и продолжил работу деструктивно.
Текущие решения и их ограничения
Ответ OpenClaw заключался в сокращении доступа к инструментам по умолчанию с «полной функциональности» до «только обмен сообщениями». Этот подход, по сути, признаёт, что они не могут оценить, уместно ли действие во время выполнения, поэтому заранее запрещают его.
NanoClaw и подобные форки пошли по пути изоляции контейнеров — изолировали всё и ограничили, к чему агент может физически получить доступ.
Оба подхода представляют собой вмешательства на уровне возможностей, которые отвечают на вопрос «к чему агент может получить доступ?», но не на вопрос «должен ли агент предпринимать это конкретное действие прямо сейчас, учитывая текущий контекст?»
Аналогия с количественными финансами
В системах количественной торговли риски управляются не запретом типов сделок, а оценкой каждого решения в реальном времени по нескольким измерениям. Опасность сделки зависит от: внутреннего риска операции, размера подверженности риску, текущих рыночных условий, обратимости, исторических паттернов и соответствия контексту. Ни одно измерение не является решающим само по себе.
Аналогично, «удалить письмо» не является по своей сути опасным — это зависит от того, какие письма, в каком контексте, с какими предыдущими инструкциями, на каком этапе цепочки задач.
Отсутствующий компонент
Текущим фреймворкам агентов не хватает механизма оценки рисков в реальном времени по нескольким измерениям, который запускается перед каждым действием и отвечает: выполнить автоматически, уведомить после, спросить сначала или жёстко заблокировать — на основе конкретного контекста, а не статичного списка.
Потенциальные подходы
- Движок на основе правил (детерминированный, поддающийся аудиту, но жёсткий)
- Другой LLM в качестве «судьи по безопасности» (гибкий, но вы доверяете LLM контролировать другой LLM)
- Одобрение с участием человека (безопасно, но убивает асинхронную ценность)
- Какой-то гибридный подход
Автор работал над применением теории динамической обрезки деревьев решений из количественных финансов к управлению поведением ИИ. Для заинтересованных статья находится на SSRN — поиск «neuro-symbolic fusion quantitative finance Sun Hua».
📖 Read the full source: r/openclaw
👀 Смотрите также

DeepSeek не предоставляет свою последнюю модель ИИ компаниям Nvidia и AMD.
DeepSeek удерживает свою последнюю модель ИИ от американских производителей чипов, включая Nvidia и AMD, согласно источникам Reuters. У статьи 19 баллов и 3 комментария на Hacker News.

Агентная GRPO: первый ИИ, победивший всех людей в соревновании по программированию
Новый алгоритм RL Agentic GRPO позволяет ИИ победить всех людей в соревновании по программированию, предоставляя немедленные награды и отложенную коррекцию.

Сотрудники Google DeepMind проголосовали за создание профсоюза из-за контрактов на военный ИИ
Сотрудники лондонского отделения Google DeepMind проголосовали за создание профсоюза, требуя от Google прекратить контракты на ИИ с армиями США и Израиля, ссылаясь на удаление этических принципов.

围棋选手自废武功向AI投降:作弊如何变得无法察觉
Пост LessWrong рассказывает о том, как читерство с помощью ИИ в турнирах по го стало массовым и почти безнаказанным на примере Карло Метты, который с помощью Leela 0.11 и Leela Zero за несколько сезонов выиграл 25 из 26 партий, проиграв только одну под прицелом камер.