マルチエージェントハーネス設計でClaudeのコード品質を向上

Anthropicは、長時間実行されるコーディングタスクにおけるClaudeのパフォーマンスを向上させるためのハーネス設計アプローチを概説するブログ記事を公開しました。この手法は、2つの特定の問題に対処しています：コンテキスト不安（長時間にわたる一貫性の喪失）と自己評価バイアス（品質が低い場合でもClaudeが自身の作業を称賛すること）です。

マルチエージェントソリューション

このソリューションは、GAN（敵対的生成ネットワーク）に着想を得て、複数のエージェントが協力して動作します。コア構造は以下を含みます：

ジェネレーター： コードと設計を作成
エバリュエーター： 批判的評価とフィードバックを提供

フロントエンド実装

フロントエンド開発では、ハーネスは4つの評価基準を使用し、一般的な設計を避けるために美学と創造性を重視します。このプロセスには5〜15回の改訂が含まれ、より美しくユニークな出力が得られます。

フルスタック実装

フルスタック開発では、ハーネスは3つのエージェントを採用します：

プランナー
ジェネレーター
エバリュエーター

パフォーマンス比較

記事では、同じゲーム開発要件に対する結果を比較しています：

単独実行： 実行は速いが、ゲームには重大なバグがある
ハーネス使用： 時間とコストはかかるが、美しいインターフェース、プレイ可能なゲーム、追加のAIサポートを含む、大幅に高品質な結果を生成

記事は、モデルがより強力になるにつれて（特にOpus 4.6に言及）、不要なハーネス要素は削除されるべきだと示唆しています。

📖 Read the full source: r/ClaudeAI

アンソロピックのマルチエージェントハーネス設計によるクロードのコード品質向上

マルチエージェントソリューション

フロントエンド実装

フルスタック実装

パフォーマンス比較

👀 See Also

Clawdbotが6つのAIエージェントをプロダクション安定なワークキューで調整する方法

AIのために人員削減した企業は、そうしなかった企業に負けるだろう

Claude CodeのMonitorツール、開発サーバーのログをAI駆動の自動修正にパイプ

AIバウンティハンターが赤字を出す理由：60の課題からのデータ