Claude Code流出：512K行TypeScriptとKAIROSエージェントが示す検証ギャップ

流出が明らかにしたこと

Anthropicはnpmパッケージにソースマップを誤って同梱し、Claude Codeのコードベース全体を公開してしまいました。この流出には512K行のTypeScript、44個の機能フラグ、そしてKAIROSという隠されたシステムが含まれています。

KAIROSは、ユーザーがアイドル状態の間に複数の機能を実行する常時稼働バックグラウンドエージェントとして説明されています：

メモリを統合する
観察結果を統合する
矛盾を除去する
ユーザーが戻った時にクリーンな状態になるようコンテキストを準備する

独立系開発者の経験

Claude Codeで668K行のTypeScriptプラットフォームを構築している個人開発者は、KAIROSが対処するのと同じ制限に直面しました。彼らは複数セッションにまたがる自律キャンペーンを実行しており、コンテキストウィンドウの境界を越えてコンテキストを保持する永続的な状態ファイルを使用しています。

問題：キャンペーンはセッション間で停止します。あるフェーズを終了して後で戻った時、開発者は手動で再起動し、キャンペーンファイルを再読み込みし、エージェントのメモリがセッションと共に失われるため、どこで中断したかを把握しなければなりません。

彼らが構築した解決策：スケジュールされたトリガーでセッションを連鎖させるデーモン。あるセッションが終了し、状態を書き込み、コード0（「エラーなし」）で終了すると、デーモンはその終了を検出して次のセッションを完全なコンテキストで起動します。これにより、手動再起動で1週間かかっていたキャンペーンが一気に完了するようになりました。

検証の問題

開発者は、終了コード0が「エラーなし」を意味しても「動作する」を意味しないことを発見しました。デーモンを実行した最初の夜、エージェントは見えない機能をリリースしました——完全なキャンペーンがクリーンな型チェック、警告ゼロ、確信を持った終了で完了しましたが、実際のアプリケーションでは38エンティティ中37個が欠落していました。

別の例では、フリートセッションが6つの動作するコンポーネントを並行して置き換え、その結果コンポーネントが「Running NaN」と表示され、タイムラインやバイタルもありませんでした。エージェントは自分たちが構築したものをレンダリングせず——コンパイルされたことを確認するだけで先に進んでいました。

検証レイヤーの解決策

開発者は「デーモンだけでは、壊れたコードをより速く出荷する方法に過ぎない」と気づきました。彼らはエージェントに視覚的に作業を証明させる検証レイヤーを構築しました：

実際のブラウザで実際のルートをナビゲートする
DOM要素を数える
スクリーンショットを撮影する
38個のエンティティカードがあるべきビューがゼロの場合、システムが捕捉する
エージェントがUIファイルを変更した場合、スクリーンショット成果物なしでは完了できない

これは提案ではなく、厳格なゲートとして実装されています。

根本的なギャップ

KAIROSはメモリ問題を解決しますが、検証問題は解決しません。観察結果を統合し、矛盾を除去し、曖昧な洞察を具体的な事実に変換しますが、メモリ統合もデーモンモードも根本的なギャップに対処していません：エージェントは自分たちの作業を視覚的に検証できないのです。構造は証明できますが、見た目は証明できません。

開発者は、AnthropicのKAIROSと彼らの独立系ソリューションの収束が、実際の限界を示していると指摘します：セッションが十分に長く、キャンペーンが数日にまたがるようになると、永続的なバックグラウンド実行は避けられなくなります。しかし「デーモンは簡単な部分です。誰でもセッションを連鎖させられます。難しいのは、デーモンが確信を持って出荷する失敗を捕捉するインフラストラクチャを構築することです。」

重要なポイント

自律エージェント実行の何らかの形式を構築している場合、出荷前に一つの質問をしてください：私のエージェントは、構築したものが実際に動作することを証明できますか？答えが「コンパイルされた」なら、同じ問題に遭遇する可能性が高いです。開発者の27件の文書化された事後分析が教えたのは「デーモンは力の増幅器です。品質レイヤーなしでは、失敗を増幅します。」ということです。

デーモン、検証レイヤー、キャンペーン永続化システムはgithub.com/SethGammon/Citadelでオープンソースです。

📖 Read the full source: r/ClaudeAI