Atlas 추론 엔진 오픈소스화: 순수 Rust + CUDA, DGX Spark에서 초당 100+ 토큰

이전에 DGX Spark에서 Qwen3.5-35B에 대해 102 tok/s를 기록했던 Atlas 추론 엔진이, 이제 GitHub에서 오픈소스로 공개되었습니다. 순수 Rust와 CUDA로 작성되었으며 PyTorch나 Python 런타임이 없어, 약 2.5GB의 Docker 이미지와 2분 미만의 콜드 스타트를 제공합니다. 팀은 HTTP 핸들러부터 커널 디스패치까지 전체 스택을 재작성하여 GPU를 병목 현상으로 만드는 20GB 이상의 Python 오버헤드를 제거했습니다.
DGX Spark (GB10) 주요 벤치마크
- Qwen3.5-35B (NVFP4, MTP K=2): 최대 130 tok/s, 지속 ~111 tok/s — 테스트 당시 vLLM 대비 3.0~3.3배
- Qwen3.5-122B (NVFP4, EP=2): ~50 tok/s 디코드
- Qwen3-Next-80B-A3B (NVFP4, MTP): ~87 tok/s
- Nemotron-3 Nano 30B (FP8): ~88 tok/s
- MiniMax2.7, Qwen3.6, Gemma를 포함한 전체 모델 매트릭스는 사이트에서 확인 가능
Atlas의 차별점
- Blackwell SM120/121용 수동 튜닝 CUDA 커널: attention, MoE, GDN, Mamba-2 — 일반 폴백 없음
- 텐서 코어에서 네이티브 NVFP4 + FP8 지원
- MTP (Multi-Token Prediction) 추측 디코딩을 통한 디코드 처리량 최대 3배 향상
- 동일 포트에서 OpenAI + Anthropic API 호환 — Claude Code, Cline, OpenCode, Open WebUI에서 바로 작동
빠른 시작
docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
-v ~/.cache/huggingface:/root/.cache/huggingface \
avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
--port 8888 --speculative --enable-prefix-caching
로드맵 및 커뮤니티
팀은 Spectral Compute (AMD 제공 하드웨어)와 협력하여 Strix Halo 포트를 작업 중이며, RTX 6000 Pro Blackwell 포트도 계획되어 있습니다. 로드맵은 커뮤니티 주도로 진행되며, MiniMax M2.7 지원은 Discord 요청에서 추가되었습니다. Atlas는 20개 칩을 부실하게 지원하기보다 4개 칩에 집중합니다.
Spark 사용자가 아닌 경우, 현재 바이너리는 DGX Spark 전용이지만 코드는 공개되어 있어 적응이 가능합니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

스틸맨 R5: 미세 조정된 14B 모델, 에다 코드 생성에서 클로드 오푸스 능가
한 개발자가 3,430개의 Ada/SPARK 명령어 쌍으로 구성된 컴파일러 검증 데이터셋에 QLoRA를 사용해 Qwen2.5-Coder-14B-Instruct를 미세 조정하여, 커스텀 벤치마크에서 68.6%의 컴파일 성공률을 달성했습니다. 이는 Claude Opus 4.6의 42.1%보다 높은 수치입니다. 이 모델은 Ollama를 통해 사용할 수 있으며 12GB VRAM에 적합합니다.

Apple Silicon에서 AI 에이전트를 위한 로컬 음성 제어 설정
Parakeet STT와 Kokoro TTS를 Apple Silicon에서 사용하여 AI 에이전트에 대한 로컬 음성 제어를 설정하는 방법을 설명합니다. 이를 통해 빠르고 클라우드 독립적인 상호 작용이 가능합니다.

클로드 카운터: 안드로이드 앱으로 실시간 알림과 함께 클로드 사용 한도를 추적하세요
한 개발자가 Claude의 API를 폴링하여 실시간 세션 및 주간 사용량 제한을 표시하는 무료 안드로이드 앱인 Claude Counter를 개발했습니다. 이 앱은 진행률 표시줄을 보여주고, 남은 비율이 포함된 풍부한 알림을 제공하며, 제한이 초기화될 때 알림을 보냅니다.

AI 에이전트를 위한 코드 검색: 벡터 임베딩의 한계와 파일별 LLM 그래프의 승리
1년 동안 코드 인덱싱 시스템을 구축한 결과, Bytebell 팀은 코드 청크의 벡터 임베딩과 Tree-sitter AST가 모두 한계를 보인 반면, Neo4j 그래프에 저장된 파일별 LLM 요약과 의미론적 전문 검색이 검색 정밀도를 크게 향상시킨다는 사실을 발견했습니다.