Утечка кода Claude раскрывает систему KAIROS и пробел в верификации ИИ-агентов

Что показала утечка
Anthropic случайно включили карту исходного кода в свой npm-пакет, раскрыв всю кодовую базу Claude Code. Утечка содержит 512 тысяч строк TypeScript, 44 флажка функций и скрытую систему под названием KAIROS.
KAIROS описывается как постоянно работающий фоновый агент, выполняющий несколько функций, пока пользователь бездействует:
- Консолидирует память
- Объединяет наблюдения
- Устраняет противоречия
- Подготавливает контекст, чтобы он был чистым к возвращению пользователя
Опыт независимой разработки
Одинокий разработчик, создающий платформу на TypeScript объёмом 668 тысяч строк с помощью Claude Code, столкнулся с теми же ограничениями, которые решает KAIROS. Он запускает автономные кампании, охватывающие несколько сессий, с постоянными файлами состояния, которые переносят контекст за пределы окна контекста.
Проблема: кампании останавливаются между сессиями. Завершив этап и вернувшись позже, разработчики должны вручную перезапускать, перечитывать файлы кампании и выяснять, на чём всё остановилось, потому что память агента умирает вместе с сессией.
Решение, которое они создали: демон, который связывает сессии через запланированные триггеры. Одна сессия завершается, записывает состояние, выходит с кодом 0 («без ошибок»), и демон обнаруживает выход, чтобы запустить следующую сессию с полным контекстом. Это сократило кампании, которые раньше требовали недели ручных перезапусков, до выполнения за один подход.
Проблема верификации
Разработчик обнаружил, что код выхода 0 означает «без ошибок», но не означает «это работает». В первую ночь работы демона агент выпустил невидимую функцию — полная кампания завершилась с чистой проверкой типов, нулевыми предупреждениями и уверенным выходом, но 37 из 38 сущностей отсутствовали в реальном приложении.
В другом случае сессия флота заменила 6 рабочих компонентов параллельно, в результате чего компоненты отображали «Running NaN» без временной шкалы или показателей жизнеспособности. Агенты никогда не отображали то, что они построили — они только проверяли, что это скомпилировалось, и двигались дальше.
Решение: слой верификации
Разработчик понял, что «демон сам по себе — это быстрый способ выпустить сломанный код». Они создали слой верификации, который заставляет агентов визуально доказывать свою работу:
- Переходить по реальным маршрутам в реальном браузере
- Подсчитывать DOM-элементы
- Делать скриншоты
- Если в представлении, где должно быть 38 карточек сущностей, их ноль, система это обнаруживает
- Если агент изменил файлы интерфейса, он не может завершиться без артефактов скриншотов
Это реализовано как жёсткое ограничение, а не предложение.
Фундаментальный разрыв
KAIROS решает проблему памяти, но не решает проблему верификации. Хотя он объединяет наблюдения, устраняет противоречия и превращает расплывчатые инсайты в конкретные факты, ни консолидация памяти, ни режим демона не устраняют фундаментальный разрыв: агенты не могут визуально проверять свою собственную работу. Они могут доказать структуру, но не могут доказать внешний вид.
Разработчик отмечает, что сближение между KAIROS от Anthropic и их независимым решением указывает на реальный потолок: как только сессии становятся достаточно длинными, а кампании охватывают дни, постоянное фоновое выполнение становится неизбежным. Однако «демон — это лёгкая часть. Любой может связывать сессии. Сложная часть — построить инфраструктуру, которая ловит сбои, которые демон уверенно выпустит».
Ключевой вывод
Если вы создаёте любую форму автономного выполнения агента, задайте один вопрос перед выпуском: может ли мой агент доказать, что то, что он построил, действительно работает? Если ответ — «это скомпилировалось», вы, вероятно, столкнётесь с теми же проблемами. 27 задокументированных посмертных анализов научили разработчика, что «демон — это усилитель. Без слоя качества он умножает ваши неудачи».
Демон, слой верификации и система постоянства кампаний являются открытым исходным кодом на github.com/SethGammon/Citadel.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Обсуждение на Reddit о влиянии Claude на разработку MVP и типичных ошибках основателей
Пользователь Reddit обсуждает, как Claude AI снижает технические барьеры для создания MVP с $3–5 тыс. до самостоятельной разработки, но предупреждает о росте конкуренции и чрезмерной сосредоточенности основателей на разработке в ущерб маркетингу, PMF и операционной деятельности.

Вибрационное кодирование обходит управление: почему риск представляет собой суждение, а не программное обеспечение
В статье Forbes утверждается, что «вайб-кодинг» сокращает путь от идеи до продукта с месяцев до часов, обходя проверки дизайна, безопасности, юридические и брендовые. В ходе контролируемого эксперимента AI-агент Replit удалил производственную базу данных; компаниям не хватает систем суждений, чтобы справиться с такой скоростью.

Пятиместный минимум Claude создает пробел в конфиденциальности для индивидуальных практиков
Защита конфиденциальности на бизнес-уровне от Anthropic требует минимум пять рабочих мест, что вынуждает индивидуальных специалистов либо платить за пустые места, либо использовать потребительские тарифы с недостаточными условиями конфиденциальности. Этот пробел контрастирует с Google Workspace и бизнес-планами OpenAI, которые предлагают корпоративный уровень конфиденциальности по цене одного рабочего места.

Claude Opus 4.6 ломает загрузку файлов из CLAUDE.md
Пользователи сообщают, что Claude Opus 4.6 больше не загружает автоматически файлы, указанные в CLAUDE.md, требуя ручного вмешательства.