NVIDIA DGX Spark Community startet Spark Arena für reproduzierbare LLM-Benchmarks

✍️ OpenClawRadar📅 Veröffentlicht: 1. März 2026🔗 Source

Die NVIDIA DGX Spark Community hat Spark Arena etabliert, eine reproduzierbare Benchmarking-Plattform für Open-Weight Large Language Models auf DGX Spark Hardware, die frühere Probleme mit inkonsistenter Berichterstattung angeht.

Hintergrund und Problemstellung

NVIDIA begann Mitte Oktober 2025 mit dem Versand von DGX Spark als Desktop-Box mit vereinheitlichtem Speicher, die in der Lage ist, große Modelle lokal auszuführen, einschließlich ~200B-Parameter-Modellen für Inferenz. Die Community identifizierte ein wiederkehrendes Problem, bei dem "jeder nur Teil-Ergebnisse postet, die zwei Wochen später niemand mehr reproduzieren kann".

Standardisierte Methodik

Am 14. Oktober 2025 postete u/ggerganov einen DGX Spark Leistungsthread in llama.cpp mit einer klaren Methodik: Messung von Prefill (pp) und Generation/Decode (tg) über mehrere Kontexttiefen und Batch-Größen hinweg, unter Verwendung von llama.cpp CUDA Builds mit llama-bench und llama-batched-bench.

Community-Lösung

Die Community einigte sich auf standardisierte Tools für Runtime-Image-Building, Orchestrierung und Rezept-Format und startete Spark Arena am 11. Februar 2026.

Aktuelle Leistungsführer

Top Decode-Tokens/Sekunde Ergebnisse von Spark Arena:

gpt-oss-120b (vLLM, MXFP4, 2 Nodes): 75.96 Tok/s
Qwen3-Coder-Next (SGLang, FP8, 2 Nodes): 60.51 Tok/s
gpt-oss-120b (vLLM, MXFP4, Single Node): 58.82 Tok/s
NVIDIA-Nemotron-3-Nano-30B-A3B (vLLM, NVFP4, Single Node): 56.11 Tok/s

Praktische Implikationen

Dieser standardisierte Ansatz liefert Entwicklern zuverlässige Leistungsdaten für die Auswahl und Konfiguration von Open-Weight-LLMs auf DGX Spark Hardware und ermöglicht besser informierte Entscheidungen über Modelleinsatz und -optimierung.

📖 Read the full source: r/clawdbot

👀 Siehe auch

Nachrichten

Claude CLI-Richtlinienabweichungsproblem von Entwickler gemeldet

Ein Entwickler berichtet, dass Claude CLI konsequent Projektrichtlinien ignoriert, die in Dateien des .claude-Ordners gespeichert sind, insbesondere nach automatischen Komprimierungsvorgängen. Das Tool führt verbotene Hintergrundprozesse aus und löscht Aufgaben-/Sitzungsdaten trotz ausdrücklicher Anweisungen.

19. Apr. 2026, 23:45 UTC

OpenClawRadar

Nachrichten

Meta veröffentlicht BOxCrete KI-Modell für Betonmischungsentwurf

Meta hat Bayesian Optimization for Concrete (BOxCrete) veröffentlicht, ein Open-Source-KI-Modell zur Gestaltung nachhaltiger Betonmischungen unter Verwendung von in den USA produzierten Materialien. Das Modell verbessert frühere Versionen durch bessere Robustheit gegenüber Störungen und verbesserte Vorhersagefähigkeiten für das Setzmaß.

3. Apr. 2026, 02:45 UTC

OpenClawRadar

Nachrichten

Claude vs GPT-4o: Gleicher Doppelpendel-Prompt, unterschiedliche Koordinatenkonventionen

Claude und GPT-4o erzeugen visuell unterschiedliche Doppelpendelsimulationen, weil sie Theta von entgegengesetzten Vertikalen interpretieren – oben vs. unten – während sie denselben Renderer verwenden. Die Mathematik ist in beiden Fällen korrekt, aber die Diskrepanz offenbart eine subtile Mehrdeutigkeit in der Prompt-Interpretation.

16. Mai 2026, 16:16 UTC

OpenClawRadar

Nachrichten

OpenClaw-Benutzer melden 143 Millionen verarbeitete Token für 94 US-Dollar über OpenRouter.

Ein Reddit-Nutzer, der OpenClaw-Multi-Agent-Pipelines ausführt, verarbeitete 143 Millionen Tokens für 94,16 US-Dollar und erreichte damit Kosten von etwa 0,66 US-Dollar pro Million Tokens, indem er über OpenRouter routete und spezifische Konfigurationsoptimierungen implementierte.

8. März 2026, 19:45 UTC

OpenClawRadar