Atlas推論エンジンがオープンソースに:Pure Rust + CUDA、DGX Spark上で100+ tok/s

以前 DGX Spark 上で Qwen3.5-35B に対して 102 tok/s を達成したと報じられた Atlas 推論エンジンが、GitHub でオープンソースになりました。純粋な Rust と CUDA で記述され、PyTorch や Python ランタイムを一切使用せず、Docker イメージは約 2.5 GB、コールドスタートは 2 分未満です。開発チームは、HTTP ハンドラからカーネルディスパッチに至るまでフルスタックを書き換え、GPU のボトルネックとなっていた 20 GB 以上の Python オーバーヘッドを排除しました。
DGX Spark (GB10) での主要ベンチマーク
- Qwen3.5-35B (NVFP4, MTP K=2): ピーク 130 tok/s、持続約 111 tok/s — テスト時点で vLLM 比 3.0~3.3 倍
- Qwen3.5-122B (NVFP4, EP=2): 約 50 tok/s デコード
- Qwen3-Next-80B-A3B (NVFP4, MTP): 約 87 tok/s
- Nemotron-3 Nano 30B (FP8): 約 88 tok/s
- MiniMax2.7、Qwen3.6、Gemma を含む完全なモデル一覧はサイトで公開
Atlas の特長
- Blackwell SM120/121 向けに手調整された CUDA カーネル: アテンション、MoE、GDN、Mamba-2 — 汎用フォールバックなし
- テンソルコア上のネイティブ NVFP4 + FP8
- MTP(マルチトークン予測)投機的デコードにより、デコードスループットが最大 3 倍
- 同一ポートで OpenAI + Anthropic API 互換 — Claude Code、Cline、OpenCode、Open WebUI とそのまま連携可能
クイックスタート
docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
-v ~/.cache/huggingface:/root/.cache/huggingface \
avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
--port 8888 --speculative --enable-prefix-caching
ロードマップとコミュニティ
現在、Spectral Compute(AMD 提供のハードウェア)との協力による Strix Halo 対応、および RTX 6000 Pro Blackwell 対応を計画中です。ロードマップはコミュニティ主導で、Discord でのリクエストをきっかけに MiniMax M2.7 対応が実現しました。Atlas は、多数のチップを中途半端にサポートするのではなく、4 種類のチップに最適化されています。
Spark 以外のユーザー向けには、現在のバイナリは DGX Spark 専用ですが、コードは改変可能な形で公開されています。
📖 出典全文: r/LocalLLaMA
👀 See Also

Chrome拡張機能がClaude Code Webにライブプレビュー機能を追加
Claude Code PreviewというChrome拡張機能が、Claude Code Webにライブプレビュー機能を追加し、Lovableや他の「バイブコーディング」サイトと同様に、デプロイメントを並べて表示できるようにします。

RustとTauriで構築するローカルオープンソースAIワークスペース
Rust、Tauri、sqlite-vecを使用して構築された完全ローカルでオープンソースのAIワークスペースを探索してください。Pythonバックエンドは使用していません。

Claude Codeにおける並列サブエージェント:トークンの節約と消費
Anthropicによると、マルチエージェントシステムは単一チャットの約15倍のトークンを消費するが、プロンプトキャッシングによりトークンが90%割引になる。サブエージェントがコストを節約するか浪費するかは、キャッシュヒット率にかかっている。

アナムネーゼ:MCP経由のクロード用個人記憶システム
Anamneseは、個人のコンテキスト(事実、プロジェクト、目標、タスク)を保存し、MCPを介してClaudeに接続することで、AIがすべての会話の開始時にこの情報にアクセスできるようにする無料ツールです。