Функция использования компьютера от Anthropic вызывает блокировку управления в реальном тесте.

✍️ OpenClawRadar📅 Опубликовано: 24 марта 2026 г.🔗 Source
Функция использования компьютера от Anthropic вызывает блокировку управления в реальном тесте.
Ad

Что произошло

Anthropic выпустила функциональность использования компьютера. Разработчик работал в управляемой сессии Claude Code, добавляя механизмы контроля для этих новых инструментов, когда система перешла в режим БЛОКИРОВКИ.

Ключевые детали инцидента

Система управления отслеживает совокупный риск от отклонённых операций. Когда этот риск превысил 0.50, система автоматически перешла в режим БЛОКИРОВКИ со следующими последствиями:

  • Сессия могла по-прежнему читать файлы
  • Все операции записи были заблокированы
  • Команды изменения не могли выполняться
  • Отправка в GitHub была предотвращена
  • Слой управления заблокировал собственного оператора от завершения работы, которая укрепила бы систему управления

Механизм принуждения

БЛОКИРОВКА механически обеспечивается системой перехвата со следующими характеристиками:

  • Канал переопределения отсутствует
  • Модель не может обойти блокировку через диалог
  • Оператор не может выдавать исключения внутри системы
  • Единственный путь восстановления требует полного выхода из сессии
Ad

Процесс разрешения

Чтобы продолжить работу, разработчику пришлось:

  • Выйти из управляемой сессии
  • Открыть терминал на локальной машине
  • Вручную отправить коммит

Система вынудила человеческое вмешательство за пределами своей юрисдикции, создав то, что разработчик описывает как "разницу между управлением, которое вы описываете, и управлением, которое вы применяете".

Примечания о поведении системы

Реализация БЛОКИРОВКИ не снижается плавно, не запрашивает подтверждения и сохраняет остановленное состояние до тех пор, пока не произойдёт внешнее человеческое действие. Разработчик отмечает: "Этот отказ и есть продукт".

📖 Read the full source: r/ClaudeAI

Ad

👀 Смотрите также

Защитные механизмы ИИ-агентов со временем ослабляются без активного обслуживания.
Безопасность

Защитные механизмы ИИ-агентов со временем ослабляются без активного обслуживания.

Защитные механизмы ИИ-агентов со временем деградируют по мере накопления обновлений системных промптов, изменения версий моделей и добавления новых инструментов, что часто приводит к противоречивым или игнорируемым правилам безопасности, требующим регулярной проверки и тестирования.

OpenClawRadar
Ядро Linux предлагает децентрализованную систему идентификации для замены сети доверия PGP.
Безопасность

Ядро Linux предлагает децентрализованную систему идентификации для замены сети доверия PGP.

Разработчики ядра Linux работают над децентрализованным уровнем идентификации под названием Linux ID, который должен заменить нынешнюю сеть доверия PGP. Система использует децентрализованные идентификаторы (DID) в стиле W3C и верифицируемые учетные данные для аутентификации разработчиков без необходимости проведения очных сессий подписания ключей.

OpenClawRadar
Сканирование безопасности пакетов MCP выявляет широко распространенные деструктивные возможности без подтверждения
Безопасность

Сканирование безопасности пакетов MCP выявляет широко распространенные деструктивные возможности без подтверждения

Сканирование безопасности 2,386 пакетов MCP в npm показало, что 63,5% из них предоставляют деструктивные операции, такие как удаление файлов и сброс баз данных, без запроса подтверждения у человека. Исследователь обнаружил, что в целом 49% пакетов имеют проблемы с безопасностью, включая 402 критических и 240 уязвимостей высокой степени серьезности.

OpenClawRadar
Анализ безопасности извлечения компонентов OpenClaw для создания пользовательских ИИ-агентов
Безопасность

Анализ безопасности извлечения компонентов OpenClaw для создания пользовательских ИИ-агентов

Разработчик проанализировал исходный код OpenClaw, чтобы определить, какие компоненты можно безопасно извлечь для использования в пользовательских ИИ-агентах, оценив каждый по методологии Lethal Quartet. Анализ выявил значительные риски безопасности в таких компонентах, как Semantic Snapshots и BrowserClaw.

OpenClawRadar