Atlas Open Source : 130 tok/s avec Rust + CUDA sur DGX Spark

Le moteur d'inférence Atlas, précédemment présenté atteignant 102 tok/s sur Qwen3.5-35B sur un DGX Spark, est maintenant open source sur GitHub. Écrit en Rust pur et CUDA sans PyTorch ni runtime Python, Atlas propose une image Docker d'environ 2,5 Go et un démarrage à froid inférieur à 2 minutes. L'équipe a réécrit toute la pile, du gestionnaire HTTP à la distribution des kernels, pour éliminer les plus de 20 Go de surcharge Python qui constituaient un goulot d'étranglement pour le GPU.

Benchmarks clés sur DGX Spark (GB10)

Qwen3.5-35B (NVFP4, MTP K=2) : pic de 130 tok/s, ~111 tok/s soutenus — 3,0 à 3,3× vLLM au moment du test
Qwen3.5-122B (NVFP4, EP=2) : ~50 tok/s en décodage
Qwen3-Next-80B-A3B (NVFP4, MTP) : ~87 tok/s
Nemotron-3 Nano 30B (FP8) : ~88 tok/s
Matrice complète des modèles incluant MiniMax2.7, Qwen3.6, Gemma disponible sur le site

Ce qui rend Atlas différent

Kernels CUDA optimisés manuellement pour Blackwell SM120/121 : attention, MoE, GDN, Mamba-2 — pas de solutions génériques
NVFP4 natif + FP8 sur les cœurs tensoriels
Décodage spéculatif MTP (Multi-Token Prediction) pour jusqu'à 3× le débit en décodage
Compatibilité API OpenAI + Anthropic sur le même port — fonctionne avec Claude Code, Cline, OpenCode, Open WebUI sans configuration

Démarrage rapide

docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
    --port 8888 --speculative --enable-prefix-caching

Feuille de route et communauté

L'équipe travaille sur un port pour Strix Halo avec Spectral Compute (matériel fourni par AMD), et un port pour RTX 6000 Pro Blackwell est prévu. La feuille de route est pilotée par la communauté — la prise en charge de MiniMax M2.7 est issue d'une demande sur Discord. Atlas cible bien quatre puces plutôt que d'en traiter vingt de manière médiocre.

Pour les utilisateurs non-Spark, le binaire actuel est réservé au DGX Spark, mais le code est ouvert pour adaptation.

📖 Lire la source complète : r/LocalLLaMA

Le moteur d'inférence Atlas devient open source : Rust pur + CUDA, plus de 100 tok/s sur DGX Spark

Benchmarks clés sur DGX Spark (GB10)

Ce qui rend Atlas différent

Démarrage rapide

Feuille de route et communauté

👀 See Also

CADAM : CAO paramétrique open source avec curseurs et rendu WebAssembly

Plugin open-source Claude Code simule le Bureau du Directeur des Données et de l'IA avec 22 agents spécialisés.

Échafaudeur de Compétences : Créez des Compétences OpenClaw Sans Écrire de Code

Codiff v0.1.0 : Un visualiseur de différences local pour les revues de code générées par LLM