ATLAS: Qwen3-14B의 프론티어 수준 코딩 성능을 달성한 오픈소스 테스트 타임 컴퓨팅 파이프라인

ATLAS는 Qwen3-14B를 중심으로 구축된 오픈소스 테스트 타임 컴퓨팅 파이프라인으로, 훨씬 낮은 비용으로 최첨단 모델과 비슷한 코딩 성능을 달성합니다. 이 프로젝트는 버지니아 공대의 경영학과 학생이 개발했으며, 개발 과정에서 코딩을 배웠습니다.
개발 과정
개발자는 기존 연구를 연결하기 위해 수백 편의 논문을 연구하는 데 2~3개월을 보냈습니다. 시스템은 세 가지 주요 버전을 거쳐 발전했습니다:
- V1: 기본 인프라, "매우 기초적(본질적으로 RAG에 불과함)"으로 설명됨
- V2: Anthropic의 "When Models Manipulate Manifolds" 논문에서 영감을 받은 에너지 기반 검증을 적용하여 괜찮은 검증기를 개발
- V3: 정지 문제 탐구를 포함한 광범위한 연구 후 V1 기준선보다 성능이 두 배 향상
성능 벤치마크
599개의 LiveCodeBench v5 문제에 대한 결과:
- DeepSeek V3.2 Reasoning: 86.2% pass@1, 작업당 약 $0.002 (API)
- GPT-5 (high): 84.6% pass@1, 작업당 약 $0.043 (API)
- ATLAS V3: 74.6% pass@1, 작업당 약 $0.004 (전기)
- Claude 4.5 Sonnet: 71.4% pass@1, 작업당 약 $0.066 (API)
기술적 세부사항 및 한계
개발자에 따르면 시스템은 "지독하게 느립니다". 쉬운 작업은 몇 초가 걸리지만, 복잡한 코딩 문제는 최대 1시간까지 소요될 수 있습니다. V3.1은 개선된 속도와 병렬 처리를 위해 Qwen 3.5 9B로 전환 중입니다.
ATLAS에는 OpenCode나 Claude Code를 API로 연결할 수 있는 완전한 MaaS(Model-as-a-Service) 인프라가 포함되어 있습니다. 개발자는 최소 16GB VRAM을 권장하며, 그보다 적은 메모리에서는 "제가 언급한 것보다 훨씬 더 느릴 것"이라고 경고합니다.
설정 및 재현성
이 프로젝트는 완전히 오픈소스이며 상업화 계획이 없습니다. 저장소는 https://github.com/itigges22/ATLAS에서 이용할 수 있습니다. 개발자는 재현성에 개선이 필요하다고 언급했지만, "Claude Code에게 자신의 설정에 맞게 최적화하도록 요청하면 잘 작동할 것"이라고 제안합니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

GitHub에 공유된 Claude Desktop용 맞춤형 Reddit MCP
한 개발자가 Claude Desktop과 Claude Code를 위해 맞춤 제작된 Reddit MCP를 공개했습니다. 이 도구는 Reddit 연구를 워크플로우에 직접 통합하도록 설계되었으며, GitHub에 문서화되어 무료로 사용할 수 있습니다.

알리바바의 월 10달러 코딩 플랜은 OpenClaw 사용자에게 여러 AI 모델에 대한 대용량 접근을 제공합니다.
월 10달러에 알리바바 플랜은 Qwen3.5-Plus, Kimi-K2.5, GLM-5, MiniMax-M2.5 모델에 접근할 수 있으며, 5시간당 1,200회, 주당 9,000회, 월 18,000회의 요청 할당량을 제공합니다.

붉은 여왕: 클로드 코드를 워커 풀로 실행하는 결정론적 오케스트레이터
Red Queen는 상태 머신을 사용하여 Claude Code 서브프로세스를 조율함으로써, LLM 라우팅 오류와 메가 프롬프트에서 발생하는 토큰 낭비를 제거합니다.

RunLobster 대 호스팅 OpenClaw 솔루션 비교
한 개발자가 RunLobster를 KiwiClaw, xCloud, 그리고 자체 호스팅 OpenClaw와 각각 2주 동안 테스트했습니다. RunLobster는 단순한 호스팅이 아닌 제품으로 근본적으로 다르며, 3,000개의 원클릭 통합 기능과 시간이 지남에 따라 축적되는 메모리를 갖추고 있습니다.