AIエージェント成功の要因：41万回実行分析の結果

CoderForge-Previewデータセットの413,278回のAIソフトウェアエンジニアリングエージェント実行の新たな分析により、成功実行と失敗実行を分ける要因が明らかになりました。この研究では、同一の問題に対する合格実行と不合格実行を比較し、170億トークンの行動データを調査しました。

データからの主な発見

分析によると、一般的な人間のソフトウェアエンジニアリングの実践は、実際にはAIエージェントのパフォーマンスを低下させる可能性があります。以下に明らかになった具体的なパターンを示します：

エージェントに「まず周囲を見回せ」と指示するのをやめる：編集前にエージェントにgrepやファイル閲覧を強制すると効果が低下します。作業メモリが限られている人間とは異なり、エージェントはすでにコードベースをコンテキストウィンドウ内に保持しています。探索や調査に費やされる初期のターンは、エージェントが学習しているのではなく、混乱していることを示しています。
テスト駆動アプローチは必須：成功実行の最大の予測因子は、初期のbashコマンドのうちテスト実行専用に費やされた割合です。エージェントは闇雲に編集すべきではなく、システムプロンプトはすぐにテストスイートを実行することを強制すべきです。
エージェントを短いリードで制御する：エージェントが実行の最初の30％以内に3つ以上のファイルを編集しようとすると、成功率が大幅に低下します。複数のファイルに編集を散らばせることは混乱を示しています。エージェントには一度に一つの修正を強制してください。
忍耐は幻想である：エージェントが実行の初期に全く同じbashコマンドを2回実行する場合、それは「一生懸命考えている」や「再試行している」のではなく、ループに陥っています。ループを解除するか、実行を再起動してください。

実践的な実装の変更

分析では、エージェントのスキャフォールディングに対する具体的な変更を推奨しています：

以下のようなプロンプトの使用をやめる：「コードベースを探索し、関連ファイルを読み、バグを特定してください。」
代わりに以下を使用する：「ベースラインを確認するためにすぐにテストスイートを実行してください。最大1つまたは2つのファイルに対して的を絞った変更を行ってください。テストを再実行してください。」

重要な洞察は、人間の限界をLLMに投影するのをやめることです。彼らに膨大なコンテキストウィンドウを使用させ、テストで彼らの作業を証明することを強制してください。

📖 Read the full source: r/LocalLLaMA

41万3000回のAIエージェント実行分析から、成功の要因が明らかに

データからの主な発見

実践的な実装の変更

👀 See Also

NYC病院がPalantir契約を終了、英国での拡大に監視の目

Claudeコードサービスの停止とステータスページの透明性の問題

Claude Codeのバグ：自動git resetが10分ごとに未コミットの変更を破壊します

Claude-Code v2.1.79は、リモート制御機能を追加し、サブプロセスのハングアップを修正、メモリ使用量を改善しました。