16개 GPU로 Karpathy Autoresearch 확장: 9배 속도 향상

Autoresearch란 무엇인가?

Autoresearch는 Andrej Karpathy의 프로젝트로, 코딩 에이전트가 신경망 학습 스크립트를 자율적으로 개선합니다. 에이전트는 train.py를 편집하고, GPU에서 5분간 학습 실험을 실행하며, 검증 손실을 확인하고, 도움이 되는 변경 사항은 유지하고 도움이 되지 않는 것은 버리는 과정을 반복합니다. Karpathy의 첫 번째 야간 실행에서 에이전트는 약 20개의 개선 사항을 발견했으며, 이는 nanochat 리더보드에서 GPT-2에 도달하는 시간을 11% 줄이는 결과로 이어졌습니다.

Autoresearch의 작동 방식

이 프로젝트에는 세 개의 파일이 있습니다:

prepare.py - 데이터를 다운로드하고, 토크나이저를 학습하며, 데이터 로더와 평가 함수를 제공합니다. 읽기 전용입니다. 에이전트는 이 파일을 건드릴 수 없습니다.
train.py - GPT 모델, 옵티마이저, 학습 루프가 포함된 파일입니다. 에이전트가 수정할 수 있는 유일한 파일입니다.
program.md - 에이전트를 위한 지침: 무엇을 변경할 수 있는지, 결과를 어떻게 평가할지, 언제 변경 사항을 유지하거나 버릴지에 대한 내용입니다.

제약 조건은 고정된 5분의 벽시계 학습 예산입니다. 에이전트의 임무는 해당 시간 내에서 val_bpb(검증 비트/바이트)를 최소화하는 것입니다. train.py의 모든 내용 - 아키텍처, 하이퍼파라미터, 옵티마이저 설정, 배치 크기, 모델 깊이 - 코드가 충돌 없이 실행되는 한 수정 가능합니다.

병목 현상: 하나의 GPU, 하나의 실험

실험을 순차적으로 실행하면 에이전트는 대부분의 시간을 기다리는데 소비합니다. 일반적인 주기는 다음과 같습니다:

에이전트가 train.py를 편집함 (~30초)
학습 실행 (~5분)
에이전트가 결과를 읽고 다음 실험을 계획함 (~30초)

2단계가 대부분의 시간을 차지합니다. 2단계 동안 에이전트는 유휴 상태입니다 - 다음 실험 또는 다음 열 개의 실험을 준비할 수 있었습니다. 순차 실행에서는 매개변수 조합을 테스트할 때마다 각 테스트에 대해 또 다른 5분을 기다려야 합니다.

에이전트에 클라우드 GPU 제공

팀은 YAML 파일에서 클라우드와 Kubernetes를 통해 작업을 시작하는 오픈소스 도구인 SkyPilot을 사용했습니다. 여기에는 코딩 에이전트가 이를 사용하도록 가르치는 스킬이 포함되어 있습니다. 에이전트는 스킬을 읽고, GPU 클러스터를 자체적으로 시작하고 관리합니다 - 수동 클라우드 설정이 필요 없습니다.

각 실험은 짧은 YAML(experiment.yaml)에 정의되어 있으며, 여기에는 GPU 유형을 지정하고, 종속성을 설치하고, train.py를 실행하며, 메트릭을 stdout에 출력합니다. 에이전트는 sky logs로 결과를 확인합니다.

결과: 약 910개의 실험, 약 8시간, 16개 GPU

Claude Code는 SkyPilot 스킬을 사용하여 16개 GPU에서 GPU 실험을 시작하고 관리했습니다. 8시간 동안 약 910개의 실험을 제출했고, val_bpb를 1.003에서 0.974로 낮췄습니다 - 기준선 대비 2.87% 개선입니다.

병렬 처리가 에이전트의 연구 전략을 어떻게 바꾸었는가

하나의 GPU를 사용할 때 에이전트는 탐욕적 언덕 오르기(greedy hill-climbing)를 수행합니다 - 한 가지를 시도하고, 확인하고, 반복합니다. 16개 GPU를 사용하면, 파도당 10-13개의 실험으로 구성된 요인 격자(factorial grids)를 실행하여 순차 검색이 놓칠 수 있는 매개변수 간 상호 작용 효과를 포착했습니다.

예를 들어, 에이전트는 단일 파도에서 여섯 가지 모델 너비를 테스트했고, 즉시 추세를 확인했으며, 최상의 것을 찾아냈습니다 - 여섯 라운드 대신 한 라운드로.

에이전트는 또한 여러 GPU 유형(H100 및 H200)에 접근할 수 있다는 것을 발견했고, 이질적 하드웨어 간 성능 차이를 활용하는 전략을 개발했습니다: 더 저렴한 H100에서 아이디어를 선별하고, 승자를 H200으로 승격시켜 검증합니다.

성능 비교

16개 GPU를 사용하여 병렬 에이전트는 시뮬레이션된 순차 기준선(~72시간)보다 9배 빠른 ~8시간 만에 동일한 최고 검증 손실에 도달했습니다.

실험 단계

1단계: 하이퍼파라미터 스윕(~처음 200개 실험)
2단계: 아키텍처 발견(~200-420번 실험)
3단계: 더 넓은 모델 미세 조정(~420-560번 실험)
4단계: 옵티마이저 튜닝(~560-700번 실험)
5단계: 수익 체감(~700-910번 실험)

에이전트는 모델 너비를 확장하는 것이 어떤 단일 하이퍼파라미터보다 더 중요하다는 것을 발견했습니다.

📖 전체 원문 읽기: HN AI Agents

16개의 GPU로 카파시의 자동 연구 확장: 결과와 방법

Autoresearch란 무엇인가?

Autoresearch의 작동 방식

병목 현상: 하나의 GPU, 하나의 실험

에이전트에 클라우드 GPU 제공

결과: 약 910개의 실험, 약 8시간, 16개 GPU

병렬 처리가 에이전트의 연구 전략을 어떻게 바꾸었는가

성능 비교

실험 단계

👀 See Also

라우터리: 런타임 라우팅 정책과 예산 제어 기능을 갖춘 셀프 호스팅 LLM 게이트웨이

AIttache: 프로덕션을 망칠 수 없는 읽기 전용 MCP 서버

클로드 코드 세션 인스펙터는 AI 에이전트 작업을 실시간으로 가시화합니다.

OpenClaw 플러그인, AI 에이전트를 Meshtastic 라디오 메시에 연결하여 오프그리드 작동 가능