Atlas Inference Engine wird Open Source: Pure Rust + CUDA, 100+ tok/s auf DGX Spark

Die Atlas Inference Engine, die zuvor mit 102 tok/s auf Qwen3.5-35B auf einem DGX Spark angekündigt wurde, ist jetzt auf GitHub Open Source. Geschrieben in reinem Rust und CUDA ohne PyTorch oder Python-Laufzeit, liefert Atlas ein ~2,5 GB großes Docker-Image und einen Kaltstart unter 2 Minuten. Das Team hat den gesamten Stack vom HTTP-Handler bis zum Kernel-Dispatch neu geschrieben, um den 20+ GB Python-Overhead zu eliminieren, der die GPU ausgebremst hat.
Wichtige Benchmarks auf DGX Spark (GB10)
- Qwen3.5-35B (NVFP4, MTP K=2): 130 tok/s Spitze, ~111 tok/s dauerhaft – 3,0–3,3× vLLM zum Testzeitpunkt
- Qwen3.5-122B (NVFP4, EP=2): ~50 tok/s Dekodierung
- Qwen3-Next-80B-A3B (NVFP4, MTP): ~87 tok/s
- Nemotron-3 Nano 30B (FP8): ~88 tok/s
- Vollständige Modellmatrix inklusive MiniMax2.7, Qwen3.6, Gemma auf der Website verfügbar
Was Atlas anders macht
- Handoptimierte CUDA-Kernel für Blackwell SM120/121: Attention, MoE, GDN, Mamba-2 – keine generischen Fallbacks
- Native NVFP4 + FP8 auf Tensor Cores
- MTP (Multi-Token Prediction) spekulative Dekodierung für bis zu 3× Durchsatz bei der Dekodierung
- OpenAI + Anthropic API-Kompatibilität auf demselben Port – funktioniert sofort mit Claude Code, Cline, OpenCode, Open WebUI
Schnellstart
docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
-v ~/.cache/huggingface:/root/.cache/huggingface \
avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
--port 8888 --speculative --enable-prefix-caching
Fahrplan & Community
Das Team arbeitet an einem Strix Halo Port mit Spectral Compute (von AMD bereitgestellte Hardware), und ein RTX 6000 Pro Blackwell Port ist geplant. Der Fahrplan ist community-getrieben – MiniMax M2.7 Unterstützung kam durch eine Discord-Anfrage zustande. Atlas zielt darauf ab, vier Chips gut zu unterstützen, anstatt zwanzig schlecht.
Für Nicht-Spark-Nutzer: Das aktuelle Binary ist nur für DGX Spark, aber der Code ist zur Anpassung offen.
📖 Lies die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Claude Code Voice-Modus: Freihändige KI-Gespräche für Entwickler
Claudes Voice-Modus-Beta ermöglicht es Ihnen, mit der KI zu sprechen und Antworten zu hören, mit Freisprech- und Push-to-Talk-Optionen. Es funktioniert im Web und auf Mobilgeräten, zählt zu den regulären Nutzungslimits und ermöglicht das Wechseln zwischen Text und Sprache im selben Gespräch.

Flavian: Ein WordPress-Entwicklungsframework mit 24 spezialisierten Claude-Code-Agents
Flavian ist ein Open-Source-WordPress-Entwicklungsframework, das auf Claude Code basiert und 24 spezialisierte Agents für Aufgaben wie Frontend-Entwicklung, Sicherheitsaudits und Figma-zu-WordPress-Konvertierung bietet. Der Ersteller stellte fest, dass domänenspezifische Agents für die WordPress-Entwicklung deutlich besser abschneiden als allgemeine.

agentcache: Python-Bibliothek für Multi-Agent-LLM-Präfix-Caching
agentcache ist eine Python-Bibliothek, die es Multi-Agenten-LLM-Frameworks ermöglicht, zwischengespeicherte Prompt-Präfixe zu teilen. In Tests mit GPT-4o-mini wurden dadurch Cache-Trefferquoten von bis zu 76 % erreicht und die Inferenzzeit mehr als halbiert.

CADAM: Open-Source Text-zu-CAD mit parametrischen Schiebereglern und WebAssembly-Rendering
CADAM generiert parametrische 3D-Modelle aus Text oder Bildern, gibt OpenSCAD-Code mit interaktiven Schiebereglern aus und läuft vollständig im Browser per WebAssembly.