LLMプロンプト vs プログラム的スキャフォールディング：マルチエージェント構築ケーススタディ

システム概要と結果

Claude OpusオーケストレーターとCodexワーカーエージェントからなるマルチエージェントシステムは、人間のコード介入なしで10の完全自律的ソフトウェアビルドを完了しました。このシステムは合計50,000行以上のコードと数百の合格テストを持つ10のTypeScriptブラウザゲームを生成しました。

オーケストレーター（プロンプトとCLIアクセスを与えられた最先端LLM）は、目標を分解し、並列ワーカーを派遣し、結果を分析し、エラーをトリアージし、統合を調整しました。プログラム的なスキャフォールド、ステートマシン、タスクルーティングインフラは使用されず、オーケストレーションロジックはプログラムではなくプロンプトです。

ケーススタディからの主要な発見

プロンプトによるスコープ強制はコンパイラの圧力下で完全に失敗（0/20）する一方、事後的なファイル復元による機械的強制は簡単に有効（20/20）
統合エージェントが無制限の編集アクセスを持つ場合、テストされたあらゆる規模（6〜36モジュール）で型契約は統合に必要ない
オーケストレーターは11回のコンテキスト圧縮イベントにわたって完全なタスク継続性を維持
コスト分析はステートフル性プレミアムを明らかに：約95%のキャッシュヒット率で、オーケストレーター処理の大部分は以前の会話コンテキストの再読み込み
単純プロンプトのアブレーションは、モデルが独立して調整パターンを発見するという強い主張を反証するが、約30K LOC以下では単独実行が調整されたビルドを上回ることを明らかに

システムアーキテクチャとデータ

このシステムはツリーアーキテクチャを使用：人間がClaude Opusオーケストレーターに目標を提供し、オーケストレーターが作業を分解して並列タスクとしてCodexワーカーに派遣します。ワーカーは完全自律的に動作し、ファイルシステムを通じてのみ通信します。

完全なデータセットには以下が含まれます：

10のClaudeオーケストレーターセッション（52 MB）
88のCodexワーカーセッション（89 MB）
62のワーカー標準出力ログ（186.7 MB、610万行）
完全なプロンプトテキストを含む55の目標ファイル
1つのTUIイベントログ（21 MB、17.3万行）

合計コーパス：88のCodexワーカーセッションと10のClaudeオーケストレーターセッションにわたる2億9500万トークン。

システムの進化

このシステムは約6ヶ月にわたる5つのフェーズを経て進化しました。オペレーターは、二重LLMチャットウィンドウ間の手動コピー＆ペーストから始め、ファイルシステムアクセスのためのターミナルCLIツールに移行し、メモリとルーティングを持つプログラム的スキャフォールドを構築しました。スキャフォールドは機能しましたが脆弱で、あらゆるエッジケースに新しいコードが必要でした。CLIアクセスを持つ単一のClaudeセッションがそれを上回りました。

結果として得られたシステム、orch-minimalは、62,792行のサポートコードを保持していますが、コアのオーケストレーションロジックはプログラムではなくプロンプトです。

📖 完全なソースを読む： r/LocalLLaMA