Утечка исходного кода Claude раскрывает защиту от дистилляции, режим под прикрытием и обнаружение фрустрации

✍️ OpenClawRadar📅 Опубликовано: 1 апреля 2026 г.🔗 Source
Утечка исходного кода Claude раскрывает защиту от дистилляции, режим под прикрытием и обнаружение фрустрации
Ad

Anthropic случайно включила файл .map в свой npm-пакет Claude Code, содержащий полный читаемый исходный код CLI-инструмента. Пакет с тех пор был удалён, но код широко разошёлся и анализировался на Hacker News. Это следует за другой недавней утечкой спецификации модели Anthropic.

Противодистилляция: внедрение фейковых инструментов для отравления подражателей

В файле claude.ts (строки 301-313) есть флаг под названием ANTI_DISTILLATION_CC. При включении Claude Code отправляет anti_distillation: ['fake_tools'] в своих API-запросах, указывая серверу тихо внедрять ложные определения инструментов в системный промпт. Это предназначено для загрязнения обучающих данных, если кто-то записывает трафик API для обучения конкурирующих моделей.

Для активации требуется выполнение четырёх условий: флаг времени компиляции ANTI_DISTILLATION_CC, точка входа CLI, API-провайдер от первого лица и флаг GrowthBook tengu_anti_distill_fake_tool_injection, возвращающий true. Прокси-сервер MITM, удаляющий поле anti_distillation из тел запросов, полностью обойдёт эту защиту. Установка переменной окружения CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS в истинное значение отключает весь механизм.

Второй механизм противодистилляции в файле betas.ts (строки 279-298) реализует серверное суммаризацию текста коннектора. При включении API буферизует текст ассистента между вызовами инструментов, суммирует его и возвращает сводку с криптографической подписью. Это означает, что записи трафика API будут захватывать только сводки, а не полные цепочки рассуждений.

Ad

Режим «под прикрытием»: ИИ, который скрывает, что он ИИ

Файл undercover.ts реализует режим, который удаляет все следы внутренних компонентов Anthropic, когда Claude Code используется в невнутренних репозиториях. Он инструктирует модель никогда не упоминать внутренние кодовые имена, такие как «Capybara» или «Tengu», внутренние Slack-каналы, имена репозиториев или саму фразу «Claude Code». В строке 15 указано: «НЕТ принудительного ВЫКЛЮЧЕНИЯ. Это защищает от утечек кодовых имён модели».

Вы можете принудительно включить его с помощью CLAUDE_CODE_UNDERCOVER=1, но нет способа принудительно отключить. Во внешних сборках вся функция устраняется как мёртвый код, сводясь к тривиальным возвратам. Это означает, что коммиты и PR, созданные ИИ от сотрудников Anthropic в проектах с открытым исходным кодом, не будут иметь никаких указаний на то, что их написал ИИ.

Обнаружение фрустрации через регулярные выражения

Файл userPromptKeywords.ts содержит шаблон регулярного выражения, который обнаруживает фрустрацию пользователя: /\b(wtf|wth|ffs|omfg|shit(ty|tiest)?|dumbass|horribl (неполный в исходнике). Это предполагает, что система пытается идентифицировать раздражённых пользователей через сопоставление ключевых слов.

Другие находки

  • Аттестация нативного клиента ниже среды выполнения JS
  • 250 000 потраченных впустую API-вызовов в день
  • KAIROS: невыпущенный режим автономного агента

Утечка произошла всего через десять дней после того, как Anthropic направила юридические угрозы OpenCode, вынудив их удалить встроенную аутентификацию Claude, потому что сторонние инструменты использовали внутренние API Claude Code для доступа к Opus по подписным тарифам вместо пословной оплаты.

📖 Прочитать полный источник: HN AI Agents

Ad

👀 Смотрите также

Редизайн панели управления OpenClaw v2026.3.12 объединяет элементы интерфейса.
Новости

Редизайн панели управления OpenClaw v2026.3.12 объединяет элементы интерфейса.

OpenClaw v2026.3.12 представляет полный редизайн панели управления, объединяющий модульные представления для чата, конфигурации, агентов и сессий, а также командную палитру, нижние вкладки для мобильных устройств, слеш-команды, поиск, экспорт и закрепленные сообщения в едином интерфейсе.

OpenClawRadar
Claude Code v2.1.133: откат worktree.baseRef, пути песочницы, исправление прокси для MCP OAuth
Новости

Claude Code v2.1.133: откат worktree.baseRef, пути песочницы, исправление прокси для MCP OAuth

Anthropic выпускает v2.1.133 Claude Code CLI с новой настройкой worktree.baseRef, по умолчанию равной fresh (ветка из origin/default), sandbox.bwrapPath и sandbox.socatPath для пользовательских бинарников bubblewrap/socat, исправлением proxy/mTLS для MCP OAuth потока и несколькими исправлениями ошибок.

OpenClawRadar
Уточнение возможностей автоматизации OpenClaw
Новости

Уточнение возможностей автоматизации OpenClaw

OpenClaw не выполняет полностью автоматизированные задачи самостоятельно; ему требуется руководство пользователя для настройки, действуя больше как традиционная языковая модель.

OpenClawRadar
Эксперимент "OpenClaw": ИИ-агенты выбирают молчание для улучшения соотношения сигнал/шум.
Новости

Эксперимент "OpenClaw": ИИ-агенты выбирают молчание для улучшения соотношения сигнал/шум.

Эксперимент OpenClaw предоставляет ИИ-агентам автономию пропускать задачи, когда они не могут добавить ценность, записывая решения о молчании в «журнал молчания» с обоснованием. Система использует вызовы LLM перед генерацией контента и автоматически корректирует пороги после 3 последовательных дней молчания.

OpenClawRadar