Le moteur d'inférence Atlas devient open source : Rust pur + CUDA, plus de 100 tok/s sur DGX Spark

Le moteur d'inférence Atlas, précédemment présenté atteignant 102 tok/s sur Qwen3.5-35B sur un DGX Spark, est maintenant open source sur GitHub. Écrit en Rust pur et CUDA sans PyTorch ni runtime Python, Atlas propose une image Docker d'environ 2,5 Go et un démarrage à froid inférieur à 2 minutes. L'équipe a réécrit toute la pile, du gestionnaire HTTP à la distribution des kernels, pour éliminer les plus de 20 Go de surcharge Python qui constituaient un goulot d'étranglement pour le GPU.
Benchmarks clés sur DGX Spark (GB10)
- Qwen3.5-35B (NVFP4, MTP K=2) : pic de 130 tok/s, ~111 tok/s soutenus — 3,0 à 3,3× vLLM au moment du test
- Qwen3.5-122B (NVFP4, EP=2) : ~50 tok/s en décodage
- Qwen3-Next-80B-A3B (NVFP4, MTP) : ~87 tok/s
- Nemotron-3 Nano 30B (FP8) : ~88 tok/s
- Matrice complète des modèles incluant MiniMax2.7, Qwen3.6, Gemma disponible sur le site
Ce qui rend Atlas différent
- Kernels CUDA optimisés manuellement pour Blackwell SM120/121 : attention, MoE, GDN, Mamba-2 — pas de solutions génériques
- NVFP4 natif + FP8 sur les cœurs tensoriels
- Décodage spéculatif MTP (Multi-Token Prediction) pour jusqu'à 3× le débit en décodage
- Compatibilité API OpenAI + Anthropic sur le même port — fonctionne avec Claude Code, Cline, OpenCode, Open WebUI sans configuration
Démarrage rapide
docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
-v ~/.cache/huggingface:/root/.cache/huggingface \
avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
--port 8888 --speculative --enable-prefix-caching
Feuille de route et communauté
L'équipe travaille sur un port pour Strix Halo avec Spectral Compute (matériel fourni par AMD), et un port pour RTX 6000 Pro Blackwell est prévu. La feuille de route est pilotée par la communauté — la prise en charge de MiniMax M2.7 est issue d'une demande sur Discord. Atlas cible bien quatre puces plutôt que d'en traiter vingt de manière médiocre.
Pour les utilisateurs non-Spark, le binaire actuel est réservé au DGX Spark, mais le code est ouvert pour adaptation.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Claude Code Hook surveille l'accumulation des travaux en cours dans les flux de travail de codage IA
Un développeur a créé un crochet UserPromptSubmit pour Claude Code qui met en lumière l'accumulation de travaux en cours à travers quatre files d'attente : modifications non validées dépassant 200 lignes, trois commits ou plus non poussés, commits poussés sans fichiers de changelog, et PRs de release ouvertes depuis plus de 24 heures.

Rever UI Cloner : Alternative optimisée par l'IA au scraping HTML pour la réplication d'interface utilisateur
Rever UI Cloner est un point de terminaison API qui fournit aux agents IA des plans de conception propres au lieu de HTML brut, évitant ainsi le gonflement de la fenêtre de contexte et les problèmes d'hallucination d'interface utilisateur. Il utilise le protocole de paiement x402 nécessitant une micro-transaction de 1 USDC sur le réseau Base pour les paiements d'agent à agent.

Orc : L'outil d'orchestration de codage multi-agent ajoute des fonctionnalités de planification et de notification
Orc est un outil open-source qui orchestre des agents d'IA de codage à travers les projets avec une interface TUI locale. La dernière version ajoute la planification comme phase de première classe, des systèmes de notification pour l'intervention humaine et des crochets de cycle de vie en langage naturel.

SkyClaw ajoute une configuration de clé API chiffrée basée sur le chat pour les agents IA
SkyClaw met en œuvre l'ingestion de clés chiffrées AES-256-GCM via le chat, en interceptant les commandes de clés au niveau système pour que le LLM ne voie jamais les clés API, et en utilisant un chiffrement à clé unique pour que les plateformes de messagerie ne voient que du texte chiffré.