Atlas Inference Engine wird Open Source: Pure Rust + CUDA, 100+ tok/s auf DGX Spark

✍️ OpenClawRadar📅 Veröffentlicht: 6. Mai 2026🔗 Source
Atlas Inference Engine wird Open Source: Pure Rust + CUDA, 100+ tok/s auf DGX Spark
Ad

Die Atlas Inference Engine, die zuvor mit 102 tok/s auf Qwen3.5-35B auf einem DGX Spark angekündigt wurde, ist jetzt auf GitHub Open Source. Geschrieben in reinem Rust und CUDA ohne PyTorch oder Python-Laufzeit, liefert Atlas ein ~2,5 GB großes Docker-Image und einen Kaltstart unter 2 Minuten. Das Team hat den gesamten Stack vom HTTP-Handler bis zum Kernel-Dispatch neu geschrieben, um den 20+ GB Python-Overhead zu eliminieren, der die GPU ausgebremst hat.

Wichtige Benchmarks auf DGX Spark (GB10)

  • Qwen3.5-35B (NVFP4, MTP K=2): 130 tok/s Spitze, ~111 tok/s dauerhaft – 3,0–3,3× vLLM zum Testzeitpunkt
  • Qwen3.5-122B (NVFP4, EP=2): ~50 tok/s Dekodierung
  • Qwen3-Next-80B-A3B (NVFP4, MTP): ~87 tok/s
  • Nemotron-3 Nano 30B (FP8): ~88 tok/s
  • Vollständige Modellmatrix inklusive MiniMax2.7, Qwen3.6, Gemma auf der Website verfügbar

Was Atlas anders macht

  • Handoptimierte CUDA-Kernel für Blackwell SM120/121: Attention, MoE, GDN, Mamba-2 – keine generischen Fallbacks
  • Native NVFP4 + FP8 auf Tensor Cores
  • MTP (Multi-Token Prediction) spekulative Dekodierung für bis zu 3× Durchsatz bei der Dekodierung
  • OpenAI + Anthropic API-Kompatibilität auf demselben Port – funktioniert sofort mit Claude Code, Cline, OpenCode, Open WebUI
Ad

Schnellstart

docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
    --port 8888 --speculative --enable-prefix-caching

Fahrplan & Community

Das Team arbeitet an einem Strix Halo Port mit Spectral Compute (von AMD bereitgestellte Hardware), und ein RTX 6000 Pro Blackwell Port ist geplant. Der Fahrplan ist community-getrieben – MiniMax M2.7 Unterstützung kam durch eine Discord-Anfrage zustande. Atlas zielt darauf ab, vier Chips gut zu unterstützen, anstatt zwanzig schlecht.

Für Nicht-Spark-Nutzer: Das aktuelle Binary ist nur für DGX Spark, aber der Code ist zur Anpassung offen.

📖 Lies die vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch

Die OpenClaw-Fähigkeit reduziert die Zugänglichkeitsbaum-Tokens von 600.000 auf 1.300 für werbelastige Websites.
Werkzeuge

Die OpenClaw-Fähigkeit reduziert die Zugänglichkeitsbaum-Tokens von 600.000 auf 1.300 für werbelastige Websites.

Ein Entwickler hat eine OpenClaw-Fähigkeit erstellt, die ML-basiertes Element-Ranking nutzt, um Barrierefreiheitsbäume zu beschneiden. Dadurch wurde slickdeals.com von ~598K Token auf ~1,3K Token reduziert, indem nur die Top ~50 aktionsfähigen Elemente beibehalten wurden.

OpenClawRadar
TextForge: Ein von Claude Code entwickeltes E-Mail-Genehmigungstool für LLM-Workflows
Werkzeuge

TextForge: Ein von Claude Code entwickeltes E-Mail-Genehmigungstool für LLM-Workflows

Ein Entwickler hat TextForge mit Claude Code erstellt, um E-Mail-Workflows mit obligatorischen Freigabestufen zu automatisieren und zu verhindern, dass LLMs E-Mails ohne ausdrückliche Genehmigung versenden. Das Tool integriert sich in Pipedrive CRM und erfüllte die Google CASA2-Sicherheitsaudit-Anforderungen.

OpenClawRadar
RCFlow: Open-Source-Orchestrierer für Claude Code, Codex und OpenCode mit Multi-Session-Verwaltung
Werkzeuge

RCFlow: Open-Source-Orchestrierer für Claude Code, Codex und OpenCode mit Multi-Session-Verwaltung

RCFlow ist ein AGPL-v3-Orchestrator für KI-Coding-Agenten (Claude Code, Codex, OpenCode) und bietet eine einheitliche Benutzeroberfläche zur Verwaltung paralleler Sitzungen über mehrere Rechner hinweg, mit Worktree-Unterstützung, Aufgabenplanung, Artefaktverfolgung und Live-Telemetrie.

OpenClawRadar
MCP-Server für semantische Suche in Obsidian-Vaults
Werkzeuge

MCP-Server für semantische Suche in Obsidian-Vaults

Ein Entwickler hat einen MCP-Server erstellt, der Obsidian-Vaults in Qdrant mit lokalen Embeddings indiziert, um semantische Suche anstelle von Schlüsselwortabgleich zu ermöglichen. Er teilt Markdown nach Überschriften auf, verwendet BAAI/bge-small-en-v1.5-Embeddings und funktioniert mit Claude Code, Cursor, Windsurf oder jedem MCP-Client.

OpenClawRadar