Claude Code로 게임 AI 자가 진화, AutoEvolve 프레임워크 6위 달성

대회 결과와 접근 방식

한 개발자가 Game AI Cup(참가자들이 2D 물리 기반 게임용 봇을 작성하는 경쟁 프로그래밍 대회)에 참가하기 위해 Claude Code를 전체 개발 팀으로 사용했습니다. Claude가 생성한 봇은 세 라운드에 걸쳐 83명의 참가자 중 6위를 차지했습니다.

이 접근 방식은 LLM 에이전트가 밤새 코드를 반복적으로 개선하는 Karpathy의 autoresearch 개념에서 영감을 받았습니다. 개발자는 autoevolve라는 작은 프레임워크를 구축하여 이를 자가 플레이 도메인에 적용했습니다 — 단일 메트릭을 최적화하는 대신, 버전들이 서로 직접 경쟁합니다.

진화 루프

워크플로우는 다음 루프를 따랐습니다:

Claude Code가 현재 봇을 읽음
특정 경기에서 패배한 이유를 분석
타겟팅된 변경 사항을 제안
새 버전이 이전 버전들과 벤치마킹됨
버전을 유지하거나 폐기
프로세스 반복

개발자는 세 대회 라운드에 걸쳐 몇 주 동안 약 130회의 반복을 실행했습니다.

실험의 주요 발견점

구조적 변경이 매개변수 조정보다 우수: 모든 돌파구는 모델 예측 제어, 골키퍼 역할, 에너지 인식 계획과 같은 새로운 기능을 추가하는 것을 포함했습니다. 수십 개의 임계값과 가중치 조정은 효과가 없거나 부정적이었습니다. Claude에게 "이 숫자를 조정하라"보다 "새로운 행동을 추가하라"로 안내할 때 진전이 더 빨랐습니다.

창발적 행동이 코드에서 읽을 수 있었음: Claude가 에너지 비용 함수를 수정한 후, 최적화기가 방향을 바꾸기 위해 벽 튕김을 사용하기 시작했습니다 — 벽에 튕기는 것은 에너지를 소비하지 않고 무료로 방향을 바꿀 수 있습니다. 이 행동은 명시적으로 프로그래밍된 적이 없지만, 블랙박스를 생성하는 신경망 접근 방식과 달리 코드에서 완전히 읽을 수 있습니다.

버그 수정이 고립적으로 누적됨: 버그 수정과 전략 변경을 혼합하면 노이즈가 발생했습니다. 한 버전에서 단 두 가지 정확성 수정만으로도 모든 상위 경쟁자를 이겼지만, 다른 버전에서 전략 변경과 함께 묶인 동일한 수정은 효과가 없었습니다.

변경 로그가 필수적이었음: 각 버전에는 Claude의 제안, 예상 결과, 실제 결과, 그리고 배운 교훈이 포함되었습니다. 이를 통해 개발자는 Claude에게 "이 접근 방식은 세 번 실패했으니, 시도하지 마라"라고 말하고 실패한 실험을 반복하는 것을 피할 수 있었습니다.

더 넓은 적용 분야

개발자는 다른 곳에서도 적용된 유사한 "LLM이 밤새 코드를 반복 개선" 패턴을 보여주는 awesome-autoresearch 목록을 발견했습니다: Shopify CEO는 93개의 자동화된 커밋으로 템플릿 렌더링 속도를 53% 향상시켰고, 누군가는 CUDA 커널을 18에서 187 TFLOPS로 확장했으며, 베수비우스 챌린지는 고대 두루마리 해독에 이를 사용했습니다.