Claude Code 2.1.136: Безопасность действий, жесткие правила запрета и монитор безопасности

Claude Code v2.1.136 вносит значительные изменения в безопасность агентов и соблюдение правил в системном промпте, промпте агента и описаниях инструментов. Вот что нового и как это влияет на поведение автономных агентов.
Системный промпт: Безопасность действий и правдивая отчетность
Обновленный системный промпт теперь требует от агентов запрашивать подтверждение перед выполнением необратимых или внешних действий, если только эти действия не были долгосрочно авторизованы. Агенты должны проверять цели перед их удалением или перезаписью. Требования к отчетности подчеркивают честное раскрытие пропущенных шагов, неудачных тестов и проверенных результатов — никакого приукрашивания неудач.
Промпт агента: Проверка правил в автоматическом режиме
Вводится новая категория пользовательских правил hard_deny как четвертый вариант наряду с существующими allow, deny и soft_deny. hard_deny безусловно блокирует действия на границе безопасности — намерение пользователя не может его переопределить. Существующая категория soft_deny сужена, чтобы охватывать только деструктивные или необратимые действия, которые можно авторизовать явным намерением пользователя.
Промпт агента: Монитор безопасности для действий автономных агентов
Логика монитора безопасности перестроена на две части. Первая часть разделяет блокировку на безусловные жесткие блоки и авторизуемые пользователем мягкие блоки. Правило по умолчанию обновлено, и намерение пользователя больше не может снять жесткие блоки безопасности. Вторая часть переносит эксфильтрацию данных в набор жестких блоков, добавляет покрытие жестких блоков для обхода проверок безопасности и считает любые внешние сервисы или источники загрузки, предполагаемые агентом, ненадежными.
Описание инструмента: Редактирование
Описание инструмента «Редактировать» теперь восстанавливает формат префикса номера строки как переменную шаблона, сохраняя при этом указание, что префиксы строк должны быть исключены из фактических строк редактирования. Это исправление для обеспечения согласованности.
Эти изменения ужесточают требования безопасности для автономных агентов Claude Code. Разработчикам, использующим пользовательские правила, следует обновить свои конфигурации, чтобы использовать hard_deny для критически важных блоков безопасности. Полные диффы промптов доступны в релизе.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Обсуждение на Reddit подчеркивает переход от чат-ботов к автономным агентам с локальным выполнением.
В посте на Reddit проводится различие между чат-ботами и автономными агентами на конкретных примерах, а также отмечается тенденция к локальному выполнению с моделями, такими как LLaMA, работающими на частных рабочих станциях.

Навыки Клода не имеют бизнес-модели для создателей — дилемма разработчика
Пользователь Reddit отмечает, что создатели навыков Claude не могут монетизировать свою работу, поскольку Anthropic выпустила отличную среду выполнения, но не создала экономику для разработчиков. Создатели остаются с проектами с открытым исходным кодом без возможности устойчивого развития.

Больницы Нью-Йорка расторгают контракт с Palantir на фоне проверок расширения компании в Великобритании.
Государственная больничная система Нью-Йорка не продлит свой контракт с Palantir на $4 млн в октябре, перейдя на внутренние системы. Тем временем Palantir сталкивается с проблемами конфиденциальности из-за сделки с NHS на £330 млн и нового контракта с британским финансовым регулятором.

Мартовская акция от Anthropic по использованию: как в непиковые часы удваиваются лимиты для Claude
Anthropic проводит акцию по сниженному использованию в 2 раза до 27 марта, когда Claude учитывает потреблённое использование как половину в указанные часы, эффективно удваивая ваш 5-часовой лимит. Акция работает путём уменьшения подсчёта потребления вдвое, а не предоставления отдельного пула использования.