Atlas推論エンジンがオープンソースに：Rust + CUDAで100+ tok/s

以前 DGX Spark 上で Qwen3.5-35B に対して 102 tok/s を達成したと報じられた Atlas 推論エンジンが、GitHub でオープンソースになりました。純粋な Rust と CUDA で記述され、PyTorch や Python ランタイムを一切使用せず、Docker イメージは約 2.5 GB、コールドスタートは 2 分未満です。開発チームは、HTTP ハンドラからカーネルディスパッチに至るまでフルスタックを書き換え、GPU のボトルネックとなっていた 20 GB 以上の Python オーバーヘッドを排除しました。

DGX Spark (GB10) での主要ベンチマーク

Qwen3.5-35B (NVFP4, MTP K=2): ピーク 130 tok/s、持続約 111 tok/s — テスト時点で vLLM 比 3.0～3.3 倍
Qwen3.5-122B (NVFP4, EP=2): 約 50 tok/s デコード
Qwen3-Next-80B-A3B (NVFP4, MTP): 約 87 tok/s
Nemotron-3 Nano 30B (FP8): 約 88 tok/s
MiniMax2.7、Qwen3.6、Gemma を含む完全なモデル一覧はサイトで公開

Atlas の特長

Blackwell SM120/121 向けに手調整された CUDA カーネル: アテンション、MoE、GDN、Mamba-2 — 汎用フォールバックなし
テンソルコア上のネイティブ NVFP4 + FP8
MTP（マルチトークン予測）投機的デコードにより、デコードスループットが最大 3 倍
同一ポートで OpenAI + Anthropic API 互換 — Claude Code、Cline、OpenCode、Open WebUI とそのまま連携可能

クイックスタート

docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
    --port 8888 --speculative --enable-prefix-caching

ロードマップとコミュニティ

現在、Spectral Compute（AMD 提供のハードウェア）との協力による Strix Halo 対応、および RTX 6000 Pro Blackwell 対応を計画中です。ロードマップはコミュニティ主導で、Discord でのリクエストをきっかけに MiniMax M2.7 対応が実現しました。Atlas は、多数のチップを中途半端にサポートするのではなく、4 種類のチップに最適化されています。

Spark 以外のユーザー向けには、現在のバイナリは DGX Spark 専用ですが、コードは改変可能な形で公開されています。

📖 出典全文: r/LocalLLaMA