Claude Code 自動研究：60実験中3変更のみ採用、93%失敗率

本番コードベースでのオートリサーチ実験

開発者は、Karpathyのオートリサーチ手法を、Django、pgvector、Cohere埋め込みで構築された本番環境のハイブリッド検索システムに対して、Claude Codeを用いて実際にテストしました。コンピュータから離れている間に2ラウンドで合計60回のイテレーションを実行しました。

主な結果と発見

60回のイテレーションのうち、57回は元に戻され、採用された変更はわずか3つでした。全体のスコア改善はわずか（+0.03）でしたが、得られた知見は重要でした：

検索シグナルとしてのタイトルマッチングは、わずか2回のイテレーションで純粋に悪影響であることが実証されました
より大きな候補プールは効果がありませんでした。問題は再現率ではなく、ランキングにありました
手作りで適応的な重み付けは実際に機能しており、それを削除すると性能が低下しました
キーワード減衰式の微調整は、スコアをほとんど動かしませんでした
ラウンド2でHaikuメタデータプロンプトをターゲットにしましたが、改善はゼロでした。これは、ラウンド1のランキング重みが元のプロンプトの出力に合わせて共最適化されていたためです
Redisキャッシュのバグを発見しました：キーがプロンプトハッシュではなくクエリハッシュに基づいており、これが本番環境に気づかれずにリリースされるところでした

実用的な教訓

最大の洞察は、オートリサーチが改善点を見つけるだけでなく、どこが限界なのかをマッピングするのに役立つということでした。「これ以上の調整はやめていい」という60のデータポイントがあることで、直感に頼るのではなく具体的な証拠が得られます。開発者は、このアプローチが、効果のない最適化に費やす手動実験の時間を節約したと述べています。

詳細なレポートはブログリンクで入手可能で、オープンソースのClaude CodeオートリサーチスキルはGitHubにあります。開発者は、他の人が非MLコードベースでこれを試し、どのような指標を使用しているかに関心を持っています。

📖 Read the full source: r/ClaudeAI