ATLAS 프레임워크: 500달러 GPU로 코딩 벤치마크서 Claude Sonnet 능가

ATLAS의 기능

ATLAS(Adaptive Test-time Learning and Autonomous Specialization)는 고정된 소형 모델을 지능형 인프라로 감싸 최첨단 API 모델과 경쟁할 수 있는 프레임워크입니다. 미세 조정, API 호출 또는 클라우드 의존성 없이 구조화된 생성, 에너지 기반 검증, 자가 검증 수리를 사용합니다. 이 시스템은 완전히 자체 호스팅되며 데이터가 기기를 떠나지 않습니다.

벤치마크 결과

하드웨어: RTX 5060 Ti 16GB | 모델: Qwen3-14B-Q4_K_M (고정)

LiveCodeBench v5: 599개 작업에서 74.6% pass@1-v(k=3)
GPQA Diamond: 198개 k=5 다중 선택 지식 추론 작업에서 47.0%
SciCode: 341개 k=1 교차 도메인 과학 코딩 작업에서 14.7%

참고: pass@k-v(k=3)는 작업당 하나의 솔루션을 제출하며, 3개의 후보 중 최상의 선택 + Lens 선택 + 실패 시 반복 수리를 통해 생성됨을 의미합니다. 단일 샷 생성이 아닙니다.

V3 파이프라인 제거 분석

기준선 (V3 없음): 54.9%
+Phase 1 (PlanSearch + BudgetForcing + DivSampling): 67.3% (+12.4pp)
+Phase 1+2 (Lens 라우팅): 67.3% (+0.0pp)
+Phase 1+3 (자가 검증 개선): 74.6% (+7.3pp)

Phase 3는 내부 검증을 위해 자가 생성 테스트 케이스를 사용합니다 — 모델은 수리 중 정답 키를 절대 보지 않습니다. PR-CoT는 42개 작업 중 36개를 구제합니다 (Phase 3 구제의 85.7%).

비용 및 성능 비교

DeepSeek V3.2 Reasoning: 86.2% LCB pass@1, ~$0.002/작업 (API, 단일 샷)
GPT-5 (high): 84.6%, ~$0.043/작업 (API, 단일 샷)
ATLAS V3 (pass@1-v(k=3)): 74.6%, ~$0.004/작업 (지역 전기만, 3개 중 최상 + 수리 파이프라인)
Claude 4.5 Sonnet: 71.4%, ~$0.066/작업 (API, 단일 샷)
Claude 4 Sonnet: 65.5%, ~$0.066/작업 (API, 단일 샷)

ATLAS 비용 계산: 전기 요금 $0.12/kWh 기준 (~165W GPU, 599개 작업에 ~1시간 55분). ATLAS는 지연 시간을 비용과 교환합니다 — 파이프라인은 단일 API 호출보다 작업당 더 오래 걸립니다.

작동 방식

V3 파이프라인은 세 단계로 구성됩니다:

Phase 1: 생성 — 제약 조건 추출과 다양한 계획을 포함한 PlanSearch, 사고 토큰 제어를 통한 Budget Forcing
검증 — 에너지 점수 매기기(5120차원 자가 임베딩)와 샌드박스 코드 실행을 포함한 Geometric Lens
Phase 3: 수리 — 모델 생성 I/O 쌍을 사용한 Self-Test Generation과 다중 관점 사고의 연쇄를 통한 PR-CoT Repair

워크플로: PlanSearch → Budget Forcing → k=3 후보 → Geometric Lens → 에너지 정렬 → Sandbox → 모두 실패 시 → Self-Test Generation → PR-CoT Repair → 수리된 코드 → Sandbox.

단일 패치된 llama-server가 K3s에서 실행되며, 추측 실행을 통한 생성과 임베딩 서비스를 모두 제공합니다.

📖 전체 소스 읽기: HN AI Agents