RTX 5090 AutoResearch 최적화: 실패와 성공 구성

초기 문제와 작동 경로

RTX 5090/Blackwell 시스템에서 AutoResearch를 실행하기 위한 초기 설정은 "심각하게 고장난" 상태로, 코드가 기술적으로 실행되었음에도 초당 수천 토큰에 불과한 극도로 낮은 성능과 사실상 쓸모없는 MFU(Model FLOPs Utilization)를 보였습니다.

작동 구성 경로는 다음을 포함했습니다:

이 설정에서 고장난 전체 모델 컴파일 경로 피하기
실제로 도움이 되는 융합된 옵티마이저 컴파일 개선 사항 유지하기
안정적인 SDPA/CuDNN 어텐션 경로 사용하기
총 배치와 시간 예산을 추측 대신 경험적으로 조정하기
벤치마크/추출/전략 수립/재실행 루프 자동화하기

실패한 것들

여러 실패 모드가 오해를 불러일으켰습니다:

기술적으로는 정확하지만 재앙적으로 느린 경로
5090 컨텍스트에 맞게 분모가 수정될 때까지 오해의 소지가 있는 MFU 해석
도움이 될 것처럼 보였지만 실제로는 상황을 훨씬 더 악화시킨 더 높은 장치당 배치 설정
잠금 정리/완료 훅/디스패치 순서와 관련된 자동화 버그

개발자가 언급한 대로: "멍청한 일을 하면서도 살아있는 것처럼 보이는 실행을 얻는 여러 방법이 있었습니다."

도움이 된 것들

실질적인 개선은 다음에서 비롯되었습니다:

융합된 옵티마이저 컴파일 경로 재활성화
원래의 더 큰 설정에서 총 배치 축소
2**17을 더 나은 총 배치 영역으로 검증
안정적인 배치 체제를 찾은 후 시간 예산 증가
자동화를 벤치마크 시스템의 일부로 취급하고 사후 고려 사항으로 간주하지 않기

성능 진행 과정

유용한 실행의 진행 과정은 명확한 개선을 보여주었습니다:

기준 건강한 실행: val_bpb: 1.165452, mfu: 40.49%
융합된 옵티마이저 컴파일 개선: val_bpb: 1.155400, mfu: 42.88%
TOTAL_BATCH_SIZE = 2**18: val_bpb: 1.108381, mfu: 43.18%
TOTAL_BATCH_SIZE = 2**17 검증: val_bpb: 1.089424, mfu: 43.03%
현재 최고의 자동 루프 결과: TOTAL_BATCH_SIZE = 2**17, TIME_BUDGET = 1200, LR multiplier = 1.0, val_bpb: 0.999445, mfu: 42.56%, total_tokens_M: 387.8, num_steps: 2959

현재 최고 구성

지금까지 발견된 최고 결과:

TOTAL_BATCH_SIZE = 2**17
TIME_BUDGET = 1200
LR multiplier = 1.0

이 조합은 더 큰 배치 변형, 더 작은 2**16 변형, 더 낮은 LR 테스트, 더 짧은 훈련 예산보다 우수했습니다.

핵심 요점

주요 교훈은 승리 구성이 "모든 것을 극대화"하는 설정이 아니라는 것이었습니다. 더 나은 경로는 안정적인 배치 체제, 더 긴 훈련 기간, 자동화 및 백엔드 실수의 신중한 제거를 포함했습니다.

개발자는 Blackwell/5090 훈련 작업 중 이상한 동작을 목격한다면 "상상이 아닐 수 있습니다. 일부 경로는 처음 보이는 것보다 훨씬 더 나쁩니다."라고 강조했습니다. 이 연습의 유용한 부분은 안정적이고, 자동화 가능하며, 재현 가능하며, 실제 후속 실험을 구축할 수 있을 만큼 충분히 좋은 경로를 찾는 것이었습니다.

📖 전체 소스 읽기: r/LocalLLaMA