Atlas Inference: Open-Source Rust + CUDA, 130 tok/s auf DGX Spark

Die Atlas Inference Engine, die zuvor mit 102 tok/s auf Qwen3.5-35B auf einem DGX Spark angekündigt wurde, ist jetzt auf GitHub Open Source. Geschrieben in reinem Rust und CUDA ohne PyTorch oder Python-Laufzeit, liefert Atlas ein ~2,5 GB großes Docker-Image und einen Kaltstart unter 2 Minuten. Das Team hat den gesamten Stack vom HTTP-Handler bis zum Kernel-Dispatch neu geschrieben, um den 20+ GB Python-Overhead zu eliminieren, der die GPU ausgebremst hat.

Wichtige Benchmarks auf DGX Spark (GB10)

Qwen3.5-35B (NVFP4, MTP K=2): 130 tok/s Spitze, ~111 tok/s dauerhaft – 3,0–3,3× vLLM zum Testzeitpunkt
Qwen3.5-122B (NVFP4, EP=2): ~50 tok/s Dekodierung
Qwen3-Next-80B-A3B (NVFP4, MTP): ~87 tok/s
Nemotron-3 Nano 30B (FP8): ~88 tok/s
Vollständige Modellmatrix inklusive MiniMax2.7, Qwen3.6, Gemma auf der Website verfügbar

Was Atlas anders macht

Handoptimierte CUDA-Kernel für Blackwell SM120/121: Attention, MoE, GDN, Mamba-2 – keine generischen Fallbacks
Native NVFP4 + FP8 auf Tensor Cores
MTP (Multi-Token Prediction) spekulative Dekodierung für bis zu 3× Durchsatz bei der Dekodierung
OpenAI + Anthropic API-Kompatibilität auf demselben Port – funktioniert sofort mit Claude Code, Cline, OpenCode, Open WebUI

Schnellstart

docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
    --port 8888 --speculative --enable-prefix-caching

Fahrplan & Community

Das Team arbeitet an einem Strix Halo Port mit Spectral Compute (von AMD bereitgestellte Hardware), und ein RTX 6000 Pro Blackwell Port ist geplant. Der Fahrplan ist community-getrieben – MiniMax M2.7 Unterstützung kam durch eine Discord-Anfrage zustande. Atlas zielt darauf ab, vier Chips gut zu unterstützen, anstatt zwanzig schlecht.

Für Nicht-Spark-Nutzer: Das aktuelle Binary ist nur für DGX Spark, aber der Code ist zur Anpassung offen.

📖 Lies die vollständige Quelle: r/LocalLLaMA

Atlas Inference Engine wird Open Source: Pure Rust + CUDA, 100+ tok/s auf DGX Spark

Wichtige Benchmarks auf DGX Spark (GB10)

Was Atlas anders macht

Schnellstart

Fahrplan & Community

👀 Siehe auch

Die OpenClaw-Fähigkeit reduziert die Zugänglichkeitsbaum-Tokens von 600.000 auf 1.300 für werbelastige Websites.

TextForge: Ein von Claude Code entwickeltes E-Mail-Genehmigungstool für LLM-Workflows

RCFlow: Open-Source-Orchestrierer für Claude Code, Codex und OpenCode mit Multi-Session-Verwaltung

MCP-Server für semantische Suche in Obsidian-Vaults