Утечка кода Claude раскрывает систему KAIROS и пробел в верификации ИИ-агентов

✍️ OpenClawRadar📅 Опубликовано: 5 апреля 2026 г.🔗 Source

Что показала утечка

Anthropic случайно включили карту исходного кода в свой npm-пакет, раскрыв всю кодовую базу Claude Code. Утечка содержит 512 тысяч строк TypeScript, 44 флажка функций и скрытую систему под названием KAIROS.

KAIROS описывается как постоянно работающий фоновый агент, выполняющий несколько функций, пока пользователь бездействует:

Консолидирует память
Объединяет наблюдения
Устраняет противоречия
Подготавливает контекст, чтобы он был чистым к возвращению пользователя

Опыт независимой разработки

Одинокий разработчик, создающий платформу на TypeScript объёмом 668 тысяч строк с помощью Claude Code, столкнулся с теми же ограничениями, которые решает KAIROS. Он запускает автономные кампании, охватывающие несколько сессий, с постоянными файлами состояния, которые переносят контекст за пределы окна контекста.

Проблема: кампании останавливаются между сессиями. Завершив этап и вернувшись позже, разработчики должны вручную перезапускать, перечитывать файлы кампании и выяснять, на чём всё остановилось, потому что память агента умирает вместе с сессией.

Решение, которое они создали: демон, который связывает сессии через запланированные триггеры. Одна сессия завершается, записывает состояние, выходит с кодом 0 («без ошибок»), и демон обнаруживает выход, чтобы запустить следующую сессию с полным контекстом. Это сократило кампании, которые раньше требовали недели ручных перезапусков, до выполнения за один подход.

Проблема верификации

Разработчик обнаружил, что код выхода 0 означает «без ошибок», но не означает «это работает». В первую ночь работы демона агент выпустил невидимую функцию — полная кампания завершилась с чистой проверкой типов, нулевыми предупреждениями и уверенным выходом, но 37 из 38 сущностей отсутствовали в реальном приложении.

В другом случае сессия флота заменила 6 рабочих компонентов параллельно, в результате чего компоненты отображали «Running NaN» без временной шкалы или показателей жизнеспособности. Агенты никогда не отображали то, что они построили — они только проверяли, что это скомпилировалось, и двигались дальше.

Решение: слой верификации

Разработчик понял, что «демон сам по себе — это быстрый способ выпустить сломанный код». Они создали слой верификации, который заставляет агентов визуально доказывать свою работу:

Переходить по реальным маршрутам в реальном браузере
Подсчитывать DOM-элементы
Делать скриншоты
Если в представлении, где должно быть 38 карточек сущностей, их ноль, система это обнаруживает
Если агент изменил файлы интерфейса, он не может завершиться без артефактов скриншотов

Это реализовано как жёсткое ограничение, а не предложение.

Фундаментальный разрыв

KAIROS решает проблему памяти, но не решает проблему верификации. Хотя он объединяет наблюдения, устраняет противоречия и превращает расплывчатые инсайты в конкретные факты, ни консолидация памяти, ни режим демона не устраняют фундаментальный разрыв: агенты не могут визуально проверять свою собственную работу. Они могут доказать структуру, но не могут доказать внешний вид.

Разработчик отмечает, что сближение между KAIROS от Anthropic и их независимым решением указывает на реальный потолок: как только сессии становятся достаточно длинными, а кампании охватывают дни, постоянное фоновое выполнение становится неизбежным. Однако «демон — это лёгкая часть. Любой может связывать сессии. Сложная часть — построить инфраструктуру, которая ловит сбои, которые демон уверенно выпустит».

Ключевой вывод

Если вы создаёте любую форму автономного выполнения агента, задайте один вопрос перед выпуском: может ли мой агент доказать, что то, что он построил, действительно работает? Если ответ — «это скомпилировалось», вы, вероятно, столкнётесь с теми же проблемами. 27 задокументированных посмертных анализов научили разработчика, что «демон — это усилитель. Без слоя качества он умножает ваши неудачи».

Демон, слой верификации и система постоянства кампаний являются открытым исходным кодом на github.com/SethGammon/Citadel.

📖 Read the full source: r/ClaudeAI

👀 Смотрите также

Новости

ThermoQA: Открытый эталон для инженерной термодинамики, тестирующий большие языковые модели на 293 расчетных задачах

ThermoQA — это открытый бенчмарк с 293 задачами по инженерной термодинамике, разделёнными на три уровня, который проверяет большие языковые модели на точные численные расчёты. Claude Opus 4.6 лидирует с совокупным результатом 94,1%, в то время как DeepSeek-R1 демонстрирует наибольшую вариативность между запусками — ±2,5%.

21 мар. 2026 г., 10:45 UTC

OpenClawRadar

Новости

Клод Код v2.1.170: Доступ к модели Claude Fable 5 и исправление сессий VS Code

Claude Code v2.1.170 добавляет Claude Fable 5, модель класса Mythos с беспрецедентными возможностями, и исправляет сохранение стенограмм сессий во встроенном терминале VS Code.

10 июн. 2026 г., 00:15 UTC

OpenClawRadar

Новости

Выпущен Claude Opus 4.8: более быстрый и дешевый быстрый режим, динамические рабочие процессы и улучшения честности

Anthropic обновляет Claude Opus до версии 4.8: улучшения в бенчмарках, динамические рабочие процессы в Claude Code, быстрый режим с ускорением в 2,5 раза и снижением цены в 3 раза, а также обучение честности.

29 мая 2026 г., 00:15 UTC

OpenClawRadar

Новости

Исследование показало, что инструменты для обнаружения ИИ вынуждают студентов использовать ИИ в оборонительных целях.

Инструменты обнаружения ИИ в образовании заставляют студентов намеренно писать хуже, чтобы избежать ложных срабатываний, причём некоторые студенты оборонительно обращаются к инструментам ИИ, чтобы проверить, будет ли их собственное письмо помечено как ИИ-сгенерированное.

8 мар. 2026 г., 01:45 UTC

OpenClawRadar