Atlas 추론 엔진 오픈소스화: Rust+CUDA, DGX Spark 130 tok/s

이전에 DGX Spark에서 Qwen3.5-35B에 대해 102 tok/s를 기록했던 Atlas 추론 엔진이, 이제 GitHub에서 오픈소스로 공개되었습니다. 순수 Rust와 CUDA로 작성되었으며 PyTorch나 Python 런타임이 없어, 약 2.5GB의 Docker 이미지와 2분 미만의 콜드 스타트를 제공합니다. 팀은 HTTP 핸들러부터 커널 디스패치까지 전체 스택을 재작성하여 GPU를 병목 현상으로 만드는 20GB 이상의 Python 오버헤드를 제거했습니다.

DGX Spark (GB10) 주요 벤치마크

Qwen3.5-35B (NVFP4, MTP K=2): 최대 130 tok/s, 지속 ~111 tok/s — 테스트 당시 vLLM 대비 3.0~3.3배
Qwen3.5-122B (NVFP4, EP=2): ~50 tok/s 디코드
Qwen3-Next-80B-A3B (NVFP4, MTP): ~87 tok/s
Nemotron-3 Nano 30B (FP8): ~88 tok/s
MiniMax2.7, Qwen3.6, Gemma를 포함한 전체 모델 매트릭스는 사이트에서 확인 가능

Atlas의 차별점

Blackwell SM120/121용 수동 튜닝 CUDA 커널: attention, MoE, GDN, Mamba-2 — 일반 폴백 없음
텐서 코어에서 네이티브 NVFP4 + FP8 지원
MTP (Multi-Token Prediction) 추측 디코딩을 통한 디코드 처리량 최대 3배 향상
동일 포트에서 OpenAI + Anthropic API 호환 — Claude Code, Cline, OpenCode, Open WebUI에서 바로 작동

빠른 시작

docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
    --port 8888 --speculative --enable-prefix-caching

로드맵 및 커뮤니티

팀은 Spectral Compute (AMD 제공 하드웨어)와 협력하여 Strix Halo 포트를 작업 중이며, RTX 6000 Pro Blackwell 포트도 계획되어 있습니다. 로드맵은 커뮤니티 주도로 진행되며, MiniMax M2.7 지원은 Discord 요청에서 추가되었습니다. Atlas는 20개 칩을 부실하게 지원하기보다 4개 칩에 집중합니다.

Spark 사용자가 아닌 경우, 현재 바이너리는 DGX Spark 전용이지만 코드는 공개되어 있어 적응이 가능합니다.

📖 전체 출처 읽기: r/LocalLLaMA