ATLAS: 오픈소스 Qwen3-14B 파이프라인, 74.6% 코딩 성능 달성

ATLAS는 Qwen3-14B를 중심으로 구축된 오픈소스 테스트 타임 컴퓨팅 파이프라인으로, 훨씬 낮은 비용으로 최첨단 모델과 비슷한 코딩 성능을 달성합니다. 이 프로젝트는 버지니아 공대의 경영학과 학생이 개발했으며, 개발 과정에서 코딩을 배웠습니다.

개발 과정

개발자는 기존 연구를 연결하기 위해 수백 편의 논문을 연구하는 데 2~3개월을 보냈습니다. 시스템은 세 가지 주요 버전을 거쳐 발전했습니다:

V1: 기본 인프라, "매우 기초적(본질적으로 RAG에 불과함)"으로 설명됨
V2: Anthropic의 "When Models Manipulate Manifolds" 논문에서 영감을 받은 에너지 기반 검증을 적용하여 괜찮은 검증기를 개발
V3: 정지 문제 탐구를 포함한 광범위한 연구 후 V1 기준선보다 성능이 두 배 향상

성능 벤치마크

599개의 LiveCodeBench v5 문제에 대한 결과:

DeepSeek V3.2 Reasoning: 86.2% pass@1, 작업당 약 $0.002 (API)
GPT-5 (high): 84.6% pass@1, 작업당 약 $0.043 (API)
ATLAS V3: 74.6% pass@1, 작업당 약 $0.004 (전기)
Claude 4.5 Sonnet: 71.4% pass@1, 작업당 약 $0.066 (API)

기술적 세부사항 및 한계

개발자에 따르면 시스템은 "지독하게 느립니다". 쉬운 작업은 몇 초가 걸리지만, 복잡한 코딩 문제는 최대 1시간까지 소요될 수 있습니다. V3.1은 개선된 속도와 병렬 처리를 위해 Qwen 3.5 9B로 전환 중입니다.

ATLAS에는 OpenCode나 Claude Code를 API로 연결할 수 있는 완전한 MaaS(Model-as-a-Service) 인프라가 포함되어 있습니다. 개발자는 최소 16GB VRAM을 권장하며, 그보다 적은 메모리에서는 "제가 언급한 것보다 훨씬 더 느릴 것"이라고 경고합니다.

설정 및 재현성

이 프로젝트는 완전히 오픈소스이며 상업화 계획이 없습니다. 저장소는 https://github.com/itigges22/ATLAS에서 이용할 수 있습니다. 개발자는 재현성에 개선이 필요하다고 언급했지만, "Claude Code에게 자신의 설정에 맞게 최적화하도록 요청하면 잘 작동할 것"이라고 제안합니다.

📖 Read the full source: r/LocalLLaMA