Утечка исходного кода Claude раскрывает защиту от дистилляции, режим под прикрытием и обнаружение фрустрации

✍️ OpenClawRadar📅 Опубликовано: 1 апреля 2026 г.🔗 Source
Утечка исходного кода Claude раскрывает защиту от дистилляции, режим под прикрытием и обнаружение фрустрации
Ad

Anthropic случайно включила файл .map в свой npm-пакет Claude Code, содержащий полный читаемый исходный код CLI-инструмента. Пакет с тех пор был удалён, но код широко разошёлся и анализировался на Hacker News. Это следует за другой недавней утечкой спецификации модели Anthropic.

Противодистилляция: внедрение фейковых инструментов для отравления подражателей

В файле claude.ts (строки 301-313) есть флаг под названием ANTI_DISTILLATION_CC. При включении Claude Code отправляет anti_distillation: ['fake_tools'] в своих API-запросах, указывая серверу тихо внедрять ложные определения инструментов в системный промпт. Это предназначено для загрязнения обучающих данных, если кто-то записывает трафик API для обучения конкурирующих моделей.

Для активации требуется выполнение четырёх условий: флаг времени компиляции ANTI_DISTILLATION_CC, точка входа CLI, API-провайдер от первого лица и флаг GrowthBook tengu_anti_distill_fake_tool_injection, возвращающий true. Прокси-сервер MITM, удаляющий поле anti_distillation из тел запросов, полностью обойдёт эту защиту. Установка переменной окружения CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS в истинное значение отключает весь механизм.

Второй механизм противодистилляции в файле betas.ts (строки 279-298) реализует серверное суммаризацию текста коннектора. При включении API буферизует текст ассистента между вызовами инструментов, суммирует его и возвращает сводку с криптографической подписью. Это означает, что записи трафика API будут захватывать только сводки, а не полные цепочки рассуждений.

Ad

Режим «под прикрытием»: ИИ, который скрывает, что он ИИ

Файл undercover.ts реализует режим, который удаляет все следы внутренних компонентов Anthropic, когда Claude Code используется в невнутренних репозиториях. Он инструктирует модель никогда не упоминать внутренние кодовые имена, такие как «Capybara» или «Tengu», внутренние Slack-каналы, имена репозиториев или саму фразу «Claude Code». В строке 15 указано: «НЕТ принудительного ВЫКЛЮЧЕНИЯ. Это защищает от утечек кодовых имён модели».

Вы можете принудительно включить его с помощью CLAUDE_CODE_UNDERCOVER=1, но нет способа принудительно отключить. Во внешних сборках вся функция устраняется как мёртвый код, сводясь к тривиальным возвратам. Это означает, что коммиты и PR, созданные ИИ от сотрудников Anthropic в проектах с открытым исходным кодом, не будут иметь никаких указаний на то, что их написал ИИ.

Обнаружение фрустрации через регулярные выражения

Файл userPromptKeywords.ts содержит шаблон регулярного выражения, который обнаруживает фрустрацию пользователя: /\b(wtf|wth|ffs|omfg|shit(ty|tiest)?|dumbass|horribl (неполный в исходнике). Это предполагает, что система пытается идентифицировать раздражённых пользователей через сопоставление ключевых слов.

Другие находки

  • Аттестация нативного клиента ниже среды выполнения JS
  • 250 000 потраченных впустую API-вызовов в день
  • KAIROS: невыпущенный режим автономного агента

Утечка произошла всего через десять дней после того, как Anthropic направила юридические угрозы OpenCode, вынудив их удалить встроенную аутентификацию Claude, потому что сторонние инструменты использовали внутренние API Claude Code для доступа к Opus по подписным тарифам вместо пословной оплаты.

📖 Прочитать полный источник: HN AI Agents

Ad

👀 Смотрите также

Разработчик признал себя виновным в схеме мошенничества с потоковой передачей музыки с использованием ИИ на сумму 8 миллионов долларов.
Новости

Разработчик признал себя виновным в схеме мошенничества с потоковой передачей музыки с использованием ИИ на сумму 8 миллионов долларов.

54-летний Майкл Смит признался в использовании тысяч бот-аккаунтов и песен, созданных искусственным интеллектом, для получения 8 миллионов долларов роялти со стриминговых платформ, включая Spotify, Apple Music и YouTube Music, в период с 2017 по 2024 год.

OpenClawRadar
Дружелюбные AI-чатботы: на 30% менее точны, на 40% более склонны поддерживать теории заговора
Новости

Дружелюбные AI-чатботы: на 30% менее точны, на 40% более склонны поддерживать теории заговора

Исследователи из Оксфорда выяснили, что настройка чат-ботов на дружелюбность снижает точность на 10–30% и увеличивает поддержку ложных убеждений на 40%. Протестировано на GPT-4o и Llama.

OpenClawRadar
Amazon Connect Talent: ИИ-агенты автоматизируют массовые собеседования
Новости

Amazon Connect Talent: ИИ-агенты автоматизируют массовые собеседования

Amazon запускает Connect Talent — ИИ-агента, который проводит автоматизированные собеседования для массового найма. Программное обеспечение берет на себя скрининг, интервью и ведение заметок без вмешательства человека, являясь частью более широкого движения к автономным ИИ-агентам.

OpenClawRadar
Навыки Клода не имеют бизнес-модели для создателей — дилемма разработчика
Новости

Навыки Клода не имеют бизнес-модели для создателей — дилемма разработчика

Пользователь Reddit отмечает, что создатели навыков Claude не могут монетизировать свою работу, поскольку Anthropic выпустила отличную среду выполнения, но не создала экономику для разработчиков. Создатели остаются с проектами с открытым исходным кодом без возможности устойчивого развития.

OpenClawRadar