ATLAS: 적응형 테스트 타임 학습 프레임워크, 500달러 GPU로 코딩 벤치마크에서 Claude Sonnet을 능가

ATLAS의 기능
ATLAS(Adaptive Test-time Learning and Autonomous Specialization)는 고정된 소형 모델을 지능형 인프라로 감싸 최첨단 API 모델과 경쟁할 수 있는 프레임워크입니다. 미세 조정, API 호출 또는 클라우드 의존성 없이 구조화된 생성, 에너지 기반 검증, 자가 검증 수리를 사용합니다. 이 시스템은 완전히 자체 호스팅되며 데이터가 기기를 떠나지 않습니다.
벤치마크 결과
하드웨어: RTX 5060 Ti 16GB | 모델: Qwen3-14B-Q4_K_M (고정)
- LiveCodeBench v5: 599개 작업에서 74.6% pass@1-v(k=3)
- GPQA Diamond: 198개 k=5 다중 선택 지식 추론 작업에서 47.0%
- SciCode: 341개 k=1 교차 도메인 과학 코딩 작업에서 14.7%
참고: pass@k-v(k=3)는 작업당 하나의 솔루션을 제출하며, 3개의 후보 중 최상의 선택 + Lens 선택 + 실패 시 반복 수리를 통해 생성됨을 의미합니다. 단일 샷 생성이 아닙니다.
V3 파이프라인 제거 분석
- 기준선 (V3 없음): 54.9%
- +Phase 1 (PlanSearch + BudgetForcing + DivSampling): 67.3% (+12.4pp)
- +Phase 1+2 (Lens 라우팅): 67.3% (+0.0pp)
- +Phase 1+3 (자가 검증 개선): 74.6% (+7.3pp)
Phase 3는 내부 검증을 위해 자가 생성 테스트 케이스를 사용합니다 — 모델은 수리 중 정답 키를 절대 보지 않습니다. PR-CoT는 42개 작업 중 36개를 구제합니다 (Phase 3 구제의 85.7%).
비용 및 성능 비교
- DeepSeek V3.2 Reasoning: 86.2% LCB pass@1, ~$0.002/작업 (API, 단일 샷)
- GPT-5 (high): 84.6%, ~$0.043/작업 (API, 단일 샷)
- ATLAS V3 (pass@1-v(k=3)): 74.6%, ~$0.004/작업 (지역 전기만, 3개 중 최상 + 수리 파이프라인)
- Claude 4.5 Sonnet: 71.4%, ~$0.066/작업 (API, 단일 샷)
- Claude 4 Sonnet: 65.5%, ~$0.066/작업 (API, 단일 샷)
ATLAS 비용 계산: 전기 요금 $0.12/kWh 기준 (~165W GPU, 599개 작업에 ~1시간 55분). ATLAS는 지연 시간을 비용과 교환합니다 — 파이프라인은 단일 API 호출보다 작업당 더 오래 걸립니다.
작동 방식
V3 파이프라인은 세 단계로 구성됩니다:
- Phase 1: 생성 — 제약 조건 추출과 다양한 계획을 포함한 PlanSearch, 사고 토큰 제어를 통한 Budget Forcing
- 검증 — 에너지 점수 매기기(5120차원 자가 임베딩)와 샌드박스 코드 실행을 포함한 Geometric Lens
- Phase 3: 수리 — 모델 생성 I/O 쌍을 사용한 Self-Test Generation과 다중 관점 사고의 연쇄를 통한 PR-CoT Repair
워크플로: PlanSearch → Budget Forcing → k=3 후보 → Geometric Lens → 에너지 정렬 → Sandbox → 모두 실패 시 → Self-Test Generation → PR-CoT Repair → 수리된 코드 → Sandbox.
단일 패치된 llama-server가 K3s에서 실행되며, 추측 실행을 통한 생성과 임베딩 서비스를 모두 제공합니다.
📖 전체 소스 읽기: HN AI Agents
👀 See Also

릴레이: OpenClaw AI 에이전트를 위한 오픈소스 제어 플레인
Relay는 Claude Cowork과 유사한 워크플로우를 OpenClaw에 제공하는 Electron 데스크톱 앱으로, 사용자가 선택한 LLM 모델과 함께 사용자 인프라에서 실행되며 승인 게이트와 내보내기 가능한 감사 추적을 포함한 내장 거버넌스 기능을 갖추고 있습니다.

추출보다 지속적인 인덱스: YouTube MCP 서버 아키텍처
한 개발자가 YouTube MCP 서버를 구축한 상세한 아키텍처 노트를 공유했습니다. 이 서버는 기존 40개 이상의 서버에서 흔히 볼 수 있는 '추출 후 잊기' 패턴과 달리 지속적인 로컬 인덱스를 구현합니다. 주요 결정 사항으로는 3단계 폴백 시스템, 벡터 저장을 위한 SQLite + sqlite-vec, 임베딩 제공자 추상화, 별도의 시각 검색 인덱스 등이 포함됩니다.

Chamber: GPU 인프라 관리를 위한 AI 에이전트
Chamber는 GPU 인프라를 관리하는 AI 에이전트로, 클러스터 프로비저닝, 실패한 작업 진단, 워크로드 관리와 같은 작업을 처리합니다. 단순한 원시 셸 명령어가 아닌 검증 및 롤백 기능을 갖춘 구조화된 작업을 제공합니다.

CLI-Anything-WEB: 모든 웹사이트를 Claude Code용 Python CLI로 리버스 엔지니어링하는 오픈소스 플러그인
CLI-Anything-WEB는 브라우저 트래픽을 모니터링하고, 프로토콜을 리버스 엔지니어링하며, 인증, 테스트, --json 지원을 포함한 완전한 Python CLI를 생성하는 오픈소스 Claude Code 플러그인입니다. Reddit, Booking, Airbnb, ChatGPT, LinkedIn 등의 사이트를 위한 19개의 샘플 CLI가 포함되어 있습니다.