Claude Codeを用いたプロダクションコードベースでの自動研究:60の実験、3つの変更を保持

本番コードベースでのオートリサーチ実験
開発者は、Karpathyのオートリサーチ手法を、Django、pgvector、Cohere埋め込みで構築された本番環境のハイブリッド検索システムに対して、Claude Codeを用いて実際にテストしました。コンピュータから離れている間に2ラウンドで合計60回のイテレーションを実行しました。
主な結果と発見
60回のイテレーションのうち、57回は元に戻され、採用された変更はわずか3つでした。全体のスコア改善はわずか(+0.03)でしたが、得られた知見は重要でした:
- 検索シグナルとしてのタイトルマッチングは、わずか2回のイテレーションで純粋に悪影響であることが実証されました
- より大きな候補プールは効果がありませんでした。問題は再現率ではなく、ランキングにありました
- 手作りで適応的な重み付けは実際に機能しており、それを削除すると性能が低下しました
- キーワード減衰式の微調整は、スコアをほとんど動かしませんでした
- ラウンド2でHaikuメタデータプロンプトをターゲットにしましたが、改善はゼロでした。これは、ラウンド1のランキング重みが元のプロンプトの出力に合わせて共最適化されていたためです
- Redisキャッシュのバグを発見しました:キーがプロンプトハッシュではなくクエリハッシュに基づいており、これが本番環境に気づかれずにリリースされるところでした
実用的な教訓
最大の洞察は、オートリサーチが改善点を見つけるだけでなく、どこが限界なのかをマッピングするのに役立つということでした。「これ以上の調整はやめていい」という60のデータポイントがあることで、直感に頼るのではなく具体的な証拠が得られます。開発者は、このアプローチが、効果のない最適化に費やす手動実験の時間を節約したと述べています。
詳細なレポートはブログリンクで入手可能で、オープンソースのClaude CodeオートリサーチスキルはGitHubにあります。開発者は、他の人が非MLコードベースでこれを試し、どのような指標を使用しているかに関心を持っています。
📖 Read the full source: r/ClaudeAI
👀 See Also

バッチAPIは、複数ファイルのコード変更にコスト効果が高い
ある開発者が、Claude SonnetとOpusをバッチ処理に使用して30以上のファイルを修正し、約3,000行のコードを約2ポンドで生成した経験を報告しています。具体的なプロンプトや、コンテンツ収集のためのRepomix、クリーンアップのためのMinimaxなどのツールを使用しました。

OpenClawとRetell AIによる地域企業向けAI受付の導入
ある開発者が、OpenClawとRetell AIを活用して地域のサービス業向けにAI受付を導入した事例を共有し、最初の1週間で23件の電話対応から7件の予約を獲得、費用は4.12ドルだった。

ソロファウンダーがClaude CodeとRemotionでデモ動画を制作
一人の開発者がClaude CodeとRemotionを利用して、デザインスキルの不足と予算制約によるローンチ遅延を克服し、週末に0ドルで製品デモ動画を作成しました。

TodoistとGoogleカレンダー連携による日次計画のためのClaudeプロジェクト
開発者がTodoistとGoogleカレンダーに接続された常勤管理アシスタントとして機能するClaudeプロジェクトを構築しました。このシステムは、タスク監査役、習慣スケジューラー、スケジュール構成者の3つの役割を使用して、毎日のスケジュールを計画し、習慣を追跡し、レビューを実行します。