Claude Codeで自己対戦進化：オートエボルブ・フレームワークの実装

競技結果とアプローチ

ある開発者がGame AI Cup（2D物理ベースのゲーム用ボットを作成する競技プログラミングコンテスト）において、Claude Codeを開発チーム全体として使用しました。Claudeが生成したボットは、3ラウンドにわたる83名の参加者中6位を獲得しました。

このアプローチは、Karpathyのautoresearchコンセプト（LLMエージェントが一晩中コードを反復改善する）に着想を得ています。開発者はautoevolveという小さなフレームワークを構築し、これを自己対戦領域に適応させました——単一の指標を最適化する代わりに、バージョン同士が直接対戦します。

進化ループ

ワークフローは次のループに従いました：

Claude Codeが現在のボットを読み取る
特定の試合で負けた理由を分析する
ターゲットを絞った変更を提案する
新バージョンが以前のバージョンに対してベンチマークされる
バージョンを保持または破棄する
プロセスを繰り返す

開発者は、3つの競技ラウンドにわたって数週間で約130回の反復を実行しました。

実験からの主な発見

構造的変更はパラメータ調整を上回りました：すべてのブレークスルーには、モデル予測制御、ゴールキーパーの役割、エネルギーを考慮した計画など、新たな機能の追加が含まれていました。数十回の閾値や重みの調整は効果がなく、むしろ悪化することもありました。進歩は、「この数値を調整する」よりも「新しい動作を追加する」ようにClaudeを導いたときに速くなりました。

創発的な動作はコードで読み取れました：Claudeがエネルギーコスト関数を修正した後、最適化器は方向を逆転させるために壁の跳ね返りを使い始めました——壁で跳ね返ると、エネルギーを消費せずに無料で方向転換できます。この動作は明示的にプログラムされたことはありませんが、ブラックボックスとなるニューラルネットワークアプローチとは異なり、コード内で完全に読み取ることができます。

バグ修正は単独で効果を発揮します：バグ修正と戦略変更を混在させるとノイズが生じました。あるバージョンでは、2つの正確性修正だけで全ての有力候補を打ち負かしましたが、別のバージョンでは同じ修正を戦略変更と組み合わせたところ効果がありませんでした。

変更履歴は不可欠でした：各バージョンには、Claudeの提案、期待される結果、実際の結果、学んだ教訓が含まれていました。これにより、開発者はClaudeに「このアプローチは3回失敗したので、試すのをやめてください」と指示し、失敗した実験を繰り返さないようにすることができました。

より広範な応用

開発者はawesome-autoresearchリストを発見し、同様の「LLMが一晩中コードを反復改善する」パターンが他の場所でも適用されていることを確認しました：ShopifyのCEOは93の自動コミットでテンプレートレンダリングを53%高速化し、ある人はCUDAカーネルを18から187 TFLOPSにスケールアップし、Vesuvius Challengeでは古代の巻物解読に使用されました。