16개의 GPU로 카파시의 자동 연구 확장: 결과와 방법

✍️ OpenClawRadar📅 게시일: March 19, 2026🔗 Source
16개의 GPU로 카파시의 자동 연구 확장: 결과와 방법
Ad

Autoresearch란 무엇인가?

Autoresearch는 Andrej Karpathy의 프로젝트로, 코딩 에이전트가 신경망 학습 스크립트를 자율적으로 개선합니다. 에이전트는 train.py를 편집하고, GPU에서 5분간 학습 실험을 실행하며, 검증 손실을 확인하고, 도움이 되는 변경 사항은 유지하고 도움이 되지 않는 것은 버리는 과정을 반복합니다. Karpathy의 첫 번째 야간 실행에서 에이전트는 약 20개의 개선 사항을 발견했으며, 이는 nanochat 리더보드에서 GPT-2에 도달하는 시간을 11% 줄이는 결과로 이어졌습니다.

Autoresearch의 작동 방식

이 프로젝트에는 세 개의 파일이 있습니다:

  • prepare.py - 데이터를 다운로드하고, 토크나이저를 학습하며, 데이터 로더와 평가 함수를 제공합니다. 읽기 전용입니다. 에이전트는 이 파일을 건드릴 수 없습니다.
  • train.py - GPT 모델, 옵티마이저, 학습 루프가 포함된 파일입니다. 에이전트가 수정할 수 있는 유일한 파일입니다.
  • program.md - 에이전트를 위한 지침: 무엇을 변경할 수 있는지, 결과를 어떻게 평가할지, 언제 변경 사항을 유지하거나 버릴지에 대한 내용입니다.

제약 조건은 고정된 5분의 벽시계 학습 예산입니다. 에이전트의 임무는 해당 시간 내에서 val_bpb(검증 비트/바이트)를 최소화하는 것입니다. train.py의 모든 내용 - 아키텍처, 하이퍼파라미터, 옵티마이저 설정, 배치 크기, 모델 깊이 - 코드가 충돌 없이 실행되는 한 수정 가능합니다.

병목 현상: 하나의 GPU, 하나의 실험

실험을 순차적으로 실행하면 에이전트는 대부분의 시간을 기다리는데 소비합니다. 일반적인 주기는 다음과 같습니다:

  1. 에이전트가 train.py를 편집함 (~30초)
  2. 학습 실행 (~5분)
  3. 에이전트가 결과를 읽고 다음 실험을 계획함 (~30초)

2단계가 대부분의 시간을 차지합니다. 2단계 동안 에이전트는 유휴 상태입니다 - 다음 실험 또는 다음 열 개의 실험을 준비할 수 있었습니다. 순차 실행에서는 매개변수 조합을 테스트할 때마다 각 테스트에 대해 또 다른 5분을 기다려야 합니다.

Ad

에이전트에 클라우드 GPU 제공

팀은 YAML 파일에서 클라우드와 Kubernetes를 통해 작업을 시작하는 오픈소스 도구인 SkyPilot을 사용했습니다. 여기에는 코딩 에이전트가 이를 사용하도록 가르치는 스킬이 포함되어 있습니다. 에이전트는 스킬을 읽고, GPU 클러스터를 자체적으로 시작하고 관리합니다 - 수동 클라우드 설정이 필요 없습니다.

각 실험은 짧은 YAML(experiment.yaml)에 정의되어 있으며, 여기에는 GPU 유형을 지정하고, 종속성을 설치하고, train.py를 실행하며, 메트릭을 stdout에 출력합니다. 에이전트는 sky logs로 결과를 확인합니다.

결과: 약 910개의 실험, 약 8시간, 16개 GPU

Claude Code는 SkyPilot 스킬을 사용하여 16개 GPU에서 GPU 실험을 시작하고 관리했습니다. 8시간 동안 약 910개의 실험을 제출했고, val_bpb를 1.003에서 0.974로 낮췄습니다 - 기준선 대비 2.87% 개선입니다.

병렬 처리가 에이전트의 연구 전략을 어떻게 바꾸었는가

하나의 GPU를 사용할 때 에이전트는 탐욕적 언덕 오르기(greedy hill-climbing)를 수행합니다 - 한 가지를 시도하고, 확인하고, 반복합니다. 16개 GPU를 사용하면, 파도당 10-13개의 실험으로 구성된 요인 격자(factorial grids)를 실행하여 순차 검색이 놓칠 수 있는 매개변수 간 상호 작용 효과를 포착했습니다.

예를 들어, 에이전트는 단일 파도에서 여섯 가지 모델 너비를 테스트했고, 즉시 추세를 확인했으며, 최상의 것을 찾아냈습니다 - 여섯 라운드 대신 한 라운드로.

에이전트는 또한 여러 GPU 유형(H100 및 H200)에 접근할 수 있다는 것을 발견했고, 이질적 하드웨어 간 성능 차이를 활용하는 전략을 개발했습니다: 더 저렴한 H100에서 아이디어를 선별하고, 승자를 H200으로 승격시켜 검증합니다.

성능 비교

16개 GPU를 사용하여 병렬 에이전트는 시뮬레이션된 순차 기준선(~72시간)보다 9배 빠른 ~8시간 만에 동일한 최고 검증 손실에 도달했습니다.

실험 단계

  • 1단계: 하이퍼파라미터 스윕(~처음 200개 실험)
  • 2단계: 아키텍처 발견(~200-420번 실험)
  • 3단계: 더 넓은 모델 미세 조정(~420-560번 실험)
  • 4단계: 옵티마이저 튜닝(~560-700번 실험)
  • 5단계: 수익 체감(~700-910번 실험)

에이전트는 모델 너비를 확장하는 것이 어떤 단일 하이퍼파라미터보다 더 중요하다는 것을 발견했습니다.

📖 전체 원문 읽기: HN AI Agents

Ad

👀 See Also

TUI 스튜디오: 알파 버전의 시각적 터미널 UI 디자인 도구
Tools

TUI 스튜디오: 알파 버전의 시각적 터미널 UI 디자인 도구

TUI Studio는 드래그 앤 드롭 컴포넌트, 실시간 ANSI 미리보기, Ink, BubbleTea, Textual을 포함한 여섯 가지 프레임워크로의 내보내기 계획을 갖춘 피그마(Figma)와 유사한 터미널 사용자 인터페이스 디자인용 시각적 편집기입니다. 현재 알파 단계로 기능이 완전하지 않은 내보내기를 지원하며, macOS, Windows, Docker에서 사용 가능합니다.

OpenClawRadar
클로드 오푸스 4.6: 지속적인 엔지니어링 작업을 위한 모델
Tools

클로드 오푸스 4.6: 지속적인 엔지니어링 작업을 위한 모델

클로드 오푸스 4.6은 장기 프로젝트에 지속적인 집중력을 제공하며, 초장기 컨텍스트와 적응적 사고와 같은 기능을 통해 며칠에 걸친 작업을 지원합니다.

OpenClawRadar
SwiftUI와 CSM-1B로 Apple Silicon에서 로컬 음성 AI 어시스턴트 구축하기
Tools

SwiftUI와 CSM-1B로 Apple Silicon에서 로컬 음성 AI 어시스턴트 구축하기

개발자가 mobiGlas를 만들었습니다. 이는 SwiftUI 앱으로, OpenClaw와 연동하여 AirPods을 통한 핸즈프리 대화를 가능하게 하며, 로컬 음성 복제(CSM-1B on M2 Ultra)를 사용하고 클라우드 API가 필요 없습니다.

OpenClawRadar
클로드, 일레븐랩스, 플럭스로 구축된 멀티 에이전트 토론 앱
Tools

클로드, 일레븐랩스, 플럭스로 구축된 멀티 에이전트 토론 앱

한 개발자가 Claude를 활용한 다중 에이전트 토론 앱을 만들었습니다. 이 앱은 사용자가 두 개의 페르소나와 주제를 선택하면 Claude가 각 측의 입장에 맞는 주장을 생성합니다. AI 심판이 토론을 평가하고 승자를 선정합니다.

OpenClawRadar