エージェンティック・コンテキスト・エンジン:自動化エージェント改善ループによる34.2%の精度向上

エージェント改善ループの自動化
開発者が、AIエージェントが自己分析と自己修正を行うことで改善プロセス全体を自動化するシステムをオープンソース化しました。このツールは、ログを手動で読み取り、プロンプトを微調整し、改善を期待するという一般的な問題に対処します。
5段階のプロセス
自動化されたループは以下の5つの明確なステップで構成されます:
- トレース分析: 何が失敗したかだけでなく、その理由、一時的な問題かシステム的な問題か、どのカテゴリの失敗かを判断するためにトレースを分析します。単なるエラーリストではなく、失敗モードの構造化された分類を出力します。
- 評価生成: 分析を検証し、修正を測定するための具体的な評価を作成します。一般的な評価では特定の失敗を捕捉できません。トレースデータが決定論的評価に十分に構造化されていない場合、LLM-as-a-judgeがフォールバックとして機能します。
- ベースライン測定: 修正を行う前に、現在のエージェントに対して評価を実行し、ベースラインを確立し、評価自体を検証します。
- 修正実装: 開発者が分析とコードベースを検討し、何を変更するかを決定します。重要な判断は、修正がプロンプトに属するのか、周囲のコードに属するのか(例:ハーネスがツール出力を適切に処理できない、または適切なコンテキストを渡さない場合)です。
- 検証と複合化: 修正後、改善を検証するために再度評価を実行し、変更を保持、ロールバック、または再作業します。
実装の詳細
このソリューションは、自己分析するエージェントシステムを呼び出す1つのコマンドで、このループ全体をエンドツーエンドで自動化します。トレース分析は、この特定のユースケースに合わせて調整されたエージェントを使用したREPL環境で行われます。このシステムは、Claude CodeへのCLIアクセスを通じて分析を提供し、残りを一連のスキルで処理します。
Claudeはコードベース内で動作するため、分析を検証し、修正段階(プロンプト対コード)で最適な行動方針を決定します。
結果と運用
Tau-2 Benchでベンチマークを行い、1回のイテレーションのみを使用した結果、最初のパスで人手を介さずに34.2%の精度向上を達成しました。このシステムは改善を複合的に進めるように設計されています:新しいトレースが新しい問題を明らかにし、各サイクルで新しい修正につながります。
完全に自律的にループするように設定できます。ステップ4の前に修正を承認したい場合は人間介入オプションが存在しますが、テストでは開発者は「そのまま実行させた」と述べています。
このツールはGitHubでオープンソース化されています: https://github.com/kayba-ai/agentic-context-engine
📖 Read the full source: r/ClaudeAI
👀 See Also

オープンソースAIコンテキストパック:法律、コンプライアンス、財務に関する質問向け
開発者がClaudeを活用し、法的、コンプライアンス、財務に関する質問に対して一般的な「弁護士に相談してください」という回答ではなく、具体的な回答を提供する32種類の無料オープンソースコンテキストパックを研究・構築しました。これらのパックはGDPR、契約、SaaS請求、EU AI法などをカバーしています。

Apple Neural EngineのリバースエンジニアリングによるMicroGPTモデルのトレーニング
開発者がAppleのNeural Engineの非公開APIをリバースエンジニアリングし、110MパラメータのMicroGPTモデルのトレーニングパイプラインを作成しました。M4 Macハードウェアで6.6 TFLOPs/wattの電力効率を達成しています。

Stage CLI: ローカルでAI生成された変更を論理的な章としてレビュー
Stage CLIは、ローカルの差分を(任意のAIエージェントを介して)論理的なチャプターにグループ化し、ステップごとにレビューするためのブラウザUIを開きます。'npm install -g stagereview'でインストールし、'npx skills add ReviewStage/stage-cli'でスキルを追加します。

クロード・カワーク vs オープンクロー:置き換え論が成立する場と崩れる場
Claude Coworkは低摩擦で持続的なデスクトップセッションを提供し、OpenClawはシステムレベルの自動化、スキルエコシステム、ワークフロー制御において優位性を維持しています。