アンソロピックのマルチエージェントハーネス設計によるクロードのコード品質向上

Anthropicは、長時間実行されるコーディングタスクにおけるClaudeのパフォーマンスを向上させるためのハーネス設計アプローチを概説するブログ記事を公開しました。この手法は、2つの特定の問題に対処しています:コンテキスト不安(長時間にわたる一貫性の喪失)と自己評価バイアス(品質が低い場合でもClaudeが自身の作業を称賛すること)です。
マルチエージェントソリューション
このソリューションは、GAN(敵対的生成ネットワーク)に着想を得て、複数のエージェントが協力して動作します。コア構造は以下を含みます:
- ジェネレーター: コードと設計を作成
- エバリュエーター: 批判的評価とフィードバックを提供
フロントエンド実装
フロントエンド開発では、ハーネスは4つの評価基準を使用し、一般的な設計を避けるために美学と創造性を重視します。このプロセスには5〜15回の改訂が含まれ、より美しくユニークな出力が得られます。
フルスタック実装
フルスタック開発では、ハーネスは3つのエージェントを採用します:
- プランナー
- ジェネレーター
- エバリュエーター
パフォーマンス比較
記事では、同じゲーム開発要件に対する結果を比較しています:
- 単独実行: 実行は速いが、ゲームには重大なバグがある
- ハーネス使用: 時間とコストはかかるが、美しいインターフェース、プレイ可能なゲーム、追加のAIサポートを含む、大幅に高品質な結果を生成
記事は、モデルがより強力になるにつれて(特にOpus 4.6に言及)、不要なハーネス要素は削除されるべきだと示唆しています。
📖 Read the full source: r/ClaudeAI
👀 See Also

DELIGHT: ローカルオーケストレーターが複数のChatGPTセッションを連携エージェントとして活用
DELIGHTは、複数の隠れたChatGPTブラウザセッションを同時に実行し、それらをエージェントチームのように調整するローカルオーケストレーターです。APIキーやGPUリソースを必要とせず、OpenClawにアクションレイヤーとして接続して実際のファイルに変更を加え、テストを実行します。

スペックマキシング: YAML仕様とACAIでAI精神病と戦う
Acai.shが「Specsmaxxing」を紹介:AIエージェントがコンテキストを失う問題に対処するため、要件をYAMLで記述し、エージェントがコード内で参照する番号付きのAcceptance Criteria for AI (ACAI) を使用する方法。

SprintiQ: オープンソースのスプリント計画 for Claude Code
SprintiQは、Claude Codeのオーケストレーションレイヤーとして機能するオープンソースのアジャイルプラットフォームです。AIによるユーザーストーリー生成、スプリント計画、ベロシティ追跡、そしてgitアクティビティをスプリントにリアルタイムで同期するCLIを提供します。

Android CLIとAIエージェント開発ワークフローのためのスキル
Googleは、Android Studio以外でのAndroid開発におけるAIエージェントのワークフローを改善するために設計されたツール、Android CLIとAndroid Skillsを発表しました。内部ベンチマークでは、LLMトークン使用量が70%削減され、タスク完了が3倍高速化されたことが示されています。