エージェンティックコンテキストエンジン：自動化改善ループで34.2%精度向上

エージェント改善ループの自動化

開発者が、AIエージェントが自己分析と自己修正を行うことで改善プロセス全体を自動化するシステムをオープンソース化しました。このツールは、ログを手動で読み取り、プロンプトを微調整し、改善を期待するという一般的な問題に対処します。

5段階のプロセス

自動化されたループは以下の5つの明確なステップで構成されます：

トレース分析： 何が失敗したかだけでなく、その理由、一時的な問題かシステム的な問題か、どのカテゴリの失敗かを判断するためにトレースを分析します。単なるエラーリストではなく、失敗モードの構造化された分類を出力します。
評価生成： 分析を検証し、修正を測定するための具体的な評価を作成します。一般的な評価では特定の失敗を捕捉できません。トレースデータが決定論的評価に十分に構造化されていない場合、LLM-as-a-judgeがフォールバックとして機能します。
ベースライン測定： 修正を行う前に、現在のエージェントに対して評価を実行し、ベースラインを確立し、評価自体を検証します。
修正実装： 開発者が分析とコードベースを検討し、何を変更するかを決定します。重要な判断は、修正がプロンプトに属するのか、周囲のコードに属するのか（例：ハーネスがツール出力を適切に処理できない、または適切なコンテキストを渡さない場合）です。
検証と複合化： 修正後、改善を検証するために再度評価を実行し、変更を保持、ロールバック、または再作業します。

実装の詳細

このソリューションは、自己分析するエージェントシステムを呼び出す1つのコマンドで、このループ全体をエンドツーエンドで自動化します。トレース分析は、この特定のユースケースに合わせて調整されたエージェントを使用したREPL環境で行われます。このシステムは、Claude CodeへのCLIアクセスを通じて分析を提供し、残りを一連のスキルで処理します。

Claudeはコードベース内で動作するため、分析を検証し、修正段階（プロンプト対コード）で最適な行動方針を決定します。