Atlas Inference Engine wird Open Source: Pure Rust + CUDA, 100+ tok/s auf DGX Spark

✍️ OpenClawRadar📅 Veröffentlicht: 6. Mai 2026🔗 Source
Atlas Inference Engine wird Open Source: Pure Rust + CUDA, 100+ tok/s auf DGX Spark
Ad

Die Atlas Inference Engine, die zuvor mit 102 tok/s auf Qwen3.5-35B auf einem DGX Spark angekündigt wurde, ist jetzt auf GitHub Open Source. Geschrieben in reinem Rust und CUDA ohne PyTorch oder Python-Laufzeit, liefert Atlas ein ~2,5 GB großes Docker-Image und einen Kaltstart unter 2 Minuten. Das Team hat den gesamten Stack vom HTTP-Handler bis zum Kernel-Dispatch neu geschrieben, um den 20+ GB Python-Overhead zu eliminieren, der die GPU ausgebremst hat.

Wichtige Benchmarks auf DGX Spark (GB10)

  • Qwen3.5-35B (NVFP4, MTP K=2): 130 tok/s Spitze, ~111 tok/s dauerhaft – 3,0–3,3× vLLM zum Testzeitpunkt
  • Qwen3.5-122B (NVFP4, EP=2): ~50 tok/s Dekodierung
  • Qwen3-Next-80B-A3B (NVFP4, MTP): ~87 tok/s
  • Nemotron-3 Nano 30B (FP8): ~88 tok/s
  • Vollständige Modellmatrix inklusive MiniMax2.7, Qwen3.6, Gemma auf der Website verfügbar

Was Atlas anders macht

  • Handoptimierte CUDA-Kernel für Blackwell SM120/121: Attention, MoE, GDN, Mamba-2 – keine generischen Fallbacks
  • Native NVFP4 + FP8 auf Tensor Cores
  • MTP (Multi-Token Prediction) spekulative Dekodierung für bis zu 3× Durchsatz bei der Dekodierung
  • OpenAI + Anthropic API-Kompatibilität auf demselben Port – funktioniert sofort mit Claude Code, Cline, OpenCode, Open WebUI
Ad

Schnellstart

docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
    --port 8888 --speculative --enable-prefix-caching

Fahrplan & Community

Das Team arbeitet an einem Strix Halo Port mit Spectral Compute (von AMD bereitgestellte Hardware), und ein RTX 6000 Pro Blackwell Port ist geplant. Der Fahrplan ist community-getrieben – MiniMax M2.7 Unterstützung kam durch eine Discord-Anfrage zustande. Atlas zielt darauf ab, vier Chips gut zu unterstützen, anstatt zwanzig schlecht.

Für Nicht-Spark-Nutzer: Das aktuelle Binary ist nur für DGX Spark, aber der Code ist zur Anpassung offen.

📖 Lies die vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch

Claude Code Voice-Modus: Freihändige KI-Gespräche für Entwickler
Werkzeuge

Claude Code Voice-Modus: Freihändige KI-Gespräche für Entwickler

Claudes Voice-Modus-Beta ermöglicht es Ihnen, mit der KI zu sprechen und Antworten zu hören, mit Freisprech- und Push-to-Talk-Optionen. Es funktioniert im Web und auf Mobilgeräten, zählt zu den regulären Nutzungslimits und ermöglicht das Wechseln zwischen Text und Sprache im selben Gespräch.

OpenClawRadar
Flavian: Ein WordPress-Entwicklungsframework mit 24 spezialisierten Claude-Code-Agents
Werkzeuge

Flavian: Ein WordPress-Entwicklungsframework mit 24 spezialisierten Claude-Code-Agents

Flavian ist ein Open-Source-WordPress-Entwicklungsframework, das auf Claude Code basiert und 24 spezialisierte Agents für Aufgaben wie Frontend-Entwicklung, Sicherheitsaudits und Figma-zu-WordPress-Konvertierung bietet. Der Ersteller stellte fest, dass domänenspezifische Agents für die WordPress-Entwicklung deutlich besser abschneiden als allgemeine.

OpenClawRadar
agentcache: Python-Bibliothek für Multi-Agent-LLM-Präfix-Caching
Werkzeuge

agentcache: Python-Bibliothek für Multi-Agent-LLM-Präfix-Caching

agentcache ist eine Python-Bibliothek, die es Multi-Agenten-LLM-Frameworks ermöglicht, zwischengespeicherte Prompt-Präfixe zu teilen. In Tests mit GPT-4o-mini wurden dadurch Cache-Trefferquoten von bis zu 76 % erreicht und die Inferenzzeit mehr als halbiert.

OpenClawRadar
CADAM: Open-Source Text-zu-CAD mit parametrischen Schiebereglern und WebAssembly-Rendering
Werkzeuge

CADAM: Open-Source Text-zu-CAD mit parametrischen Schiebereglern und WebAssembly-Rendering

CADAM generiert parametrische 3D-Modelle aus Text oder Bildern, gibt OpenSCAD-Code mit interaktiven Schiebereglern aus und läuft vollständig im Browser per WebAssembly.

OpenClawRadar