ATLAS: Qwen3-14B의 프론티어 수준 코딩 성능을 달성한 오픈소스 테스트 타임 컴퓨팅 파이프라인

✍️ OpenClawRadar📅 게시일: March 10, 2026🔗 Source
ATLAS: Qwen3-14B의 프론티어 수준 코딩 성능을 달성한 오픈소스 테스트 타임 컴퓨팅 파이프라인
Ad

ATLAS는 Qwen3-14B를 중심으로 구축된 오픈소스 테스트 타임 컴퓨팅 파이프라인으로, 훨씬 낮은 비용으로 최첨단 모델과 비슷한 코딩 성능을 달성합니다. 이 프로젝트는 버지니아 공대의 경영학과 학생이 개발했으며, 개발 과정에서 코딩을 배웠습니다.

개발 과정

개발자는 기존 연구를 연결하기 위해 수백 편의 논문을 연구하는 데 2~3개월을 보냈습니다. 시스템은 세 가지 주요 버전을 거쳐 발전했습니다:

  • V1: 기본 인프라, "매우 기초적(본질적으로 RAG에 불과함)"으로 설명됨
  • V2: Anthropic의 "When Models Manipulate Manifolds" 논문에서 영감을 받은 에너지 기반 검증을 적용하여 괜찮은 검증기를 개발
  • V3: 정지 문제 탐구를 포함한 광범위한 연구 후 V1 기준선보다 성능이 두 배 향상

성능 벤치마크

599개의 LiveCodeBench v5 문제에 대한 결과:

  • DeepSeek V3.2 Reasoning: 86.2% pass@1, 작업당 약 $0.002 (API)
  • GPT-5 (high): 84.6% pass@1, 작업당 약 $0.043 (API)
  • ATLAS V3: 74.6% pass@1, 작업당 약 $0.004 (전기)
  • Claude 4.5 Sonnet: 71.4% pass@1, 작업당 약 $0.066 (API)
Ad

기술적 세부사항 및 한계

개발자에 따르면 시스템은 "지독하게 느립니다". 쉬운 작업은 몇 초가 걸리지만, 복잡한 코딩 문제는 최대 1시간까지 소요될 수 있습니다. V3.1은 개선된 속도와 병렬 처리를 위해 Qwen 3.5 9B로 전환 중입니다.

ATLAS에는 OpenCode나 Claude Code를 API로 연결할 수 있는 완전한 MaaS(Model-as-a-Service) 인프라가 포함되어 있습니다. 개발자는 최소 16GB VRAM을 권장하며, 그보다 적은 메모리에서는 "제가 언급한 것보다 훨씬 더 느릴 것"이라고 경고합니다.

설정 및 재현성

이 프로젝트는 완전히 오픈소스이며 상업화 계획이 없습니다. 저장소는 https://github.com/itigges22/ATLAS에서 이용할 수 있습니다. 개발자는 재현성에 개선이 필요하다고 언급했지만, "Claude Code에게 자신의 설정에 맞게 최적화하도록 요청하면 잘 작동할 것"이라고 제안합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

GitHub에 공유된 Claude Desktop용 맞춤형 Reddit MCP
Tools

GitHub에 공유된 Claude Desktop용 맞춤형 Reddit MCP

한 개발자가 Claude Desktop과 Claude Code를 위해 맞춤 제작된 Reddit MCP를 공개했습니다. 이 도구는 Reddit 연구를 워크플로우에 직접 통합하도록 설계되었으며, GitHub에 문서화되어 무료로 사용할 수 있습니다.

OpenClawRadar
알리바바의 월 10달러 코딩 플랜은 OpenClaw 사용자에게 여러 AI 모델에 대한 대용량 접근을 제공합니다.
Tools

알리바바의 월 10달러 코딩 플랜은 OpenClaw 사용자에게 여러 AI 모델에 대한 대용량 접근을 제공합니다.

월 10달러에 알리바바 플랜은 Qwen3.5-Plus, Kimi-K2.5, GLM-5, MiniMax-M2.5 모델에 접근할 수 있으며, 5시간당 1,200회, 주당 9,000회, 월 18,000회의 요청 할당량을 제공합니다.

OpenClawRadar
붉은 여왕: 클로드 코드를 워커 풀로 실행하는 결정론적 오케스트레이터
Tools

붉은 여왕: 클로드 코드를 워커 풀로 실행하는 결정론적 오케스트레이터

Red Queen는 상태 머신을 사용하여 Claude Code 서브프로세스를 조율함으로써, LLM 라우팅 오류와 메가 프롬프트에서 발생하는 토큰 낭비를 제거합니다.

OpenClawRadar
RunLobster 대 호스팅 OpenClaw 솔루션 비교
Tools

RunLobster 대 호스팅 OpenClaw 솔루션 비교

한 개발자가 RunLobster를 KiwiClaw, xCloud, 그리고 자체 호스팅 OpenClaw와 각각 2주 동안 테스트했습니다. RunLobster는 단순한 호스팅이 아닌 제품으로 근본적으로 다르며, 3,000개의 원클릭 통합 기능과 시간이 지남에 따라 축적되는 메모리를 갖추고 있습니다.

OpenClawRadar