NVIDIA DGX Spark Community startet Spark Arena für reproduzierbare LLM-Benchmarks

Die NVIDIA DGX Spark Community hat Spark Arena etabliert, eine reproduzierbare Benchmarking-Plattform für Open-Weight Large Language Models auf DGX Spark Hardware, die frühere Probleme mit inkonsistenter Berichterstattung angeht.
Hintergrund und Problemstellung
NVIDIA begann Mitte Oktober 2025 mit dem Versand von DGX Spark als Desktop-Box mit vereinheitlichtem Speicher, die in der Lage ist, große Modelle lokal auszuführen, einschließlich ~200B-Parameter-Modellen für Inferenz. Die Community identifizierte ein wiederkehrendes Problem, bei dem "jeder nur Teil-Ergebnisse postet, die zwei Wochen später niemand mehr reproduzieren kann".
Standardisierte Methodik
Am 14. Oktober 2025 postete u/ggerganov einen DGX Spark Leistungsthread in llama.cpp mit einer klaren Methodik: Messung von Prefill (pp) und Generation/Decode (tg) über mehrere Kontexttiefen und Batch-Größen hinweg, unter Verwendung von llama.cpp CUDA Builds mit llama-bench und llama-batched-bench.
Community-Lösung
Die Community einigte sich auf standardisierte Tools für Runtime-Image-Building, Orchestrierung und Rezept-Format und startete Spark Arena am 11. Februar 2026.
Aktuelle Leistungsführer
Top Decode-Tokens/Sekunde Ergebnisse von Spark Arena:
- gpt-oss-120b (vLLM, MXFP4, 2 Nodes): 75.96 Tok/s
- Qwen3-Coder-Next (SGLang, FP8, 2 Nodes): 60.51 Tok/s
- gpt-oss-120b (vLLM, MXFP4, Single Node): 58.82 Tok/s
- NVIDIA-Nemotron-3-Nano-30B-A3B (vLLM, NVFP4, Single Node): 56.11 Tok/s
Praktische Implikationen
Dieser standardisierte Ansatz liefert Entwicklern zuverlässige Leistungsdaten für die Auswahl und Konfiguration von Open-Weight-LLMs auf DGX Spark Hardware und ermöglicht besser informierte Entscheidungen über Modelleinsatz und -optimierung.
📖 Read the full source: r/clawdbot
👀 Siehe auch

Claude CLI-Richtlinienabweichungsproblem von Entwickler gemeldet
Ein Entwickler berichtet, dass Claude CLI konsequent Projektrichtlinien ignoriert, die in Dateien des .claude-Ordners gespeichert sind, insbesondere nach automatischen Komprimierungsvorgängen. Das Tool führt verbotene Hintergrundprozesse aus und löscht Aufgaben-/Sitzungsdaten trotz ausdrücklicher Anweisungen.

Meta veröffentlicht BOxCrete KI-Modell für Betonmischungsentwurf
Meta hat Bayesian Optimization for Concrete (BOxCrete) veröffentlicht, ein Open-Source-KI-Modell zur Gestaltung nachhaltiger Betonmischungen unter Verwendung von in den USA produzierten Materialien. Das Modell verbessert frühere Versionen durch bessere Robustheit gegenüber Störungen und verbesserte Vorhersagefähigkeiten für das Setzmaß.

Claude vs GPT-4o: Gleicher Doppelpendel-Prompt, unterschiedliche Koordinatenkonventionen
Claude und GPT-4o erzeugen visuell unterschiedliche Doppelpendelsimulationen, weil sie Theta von entgegengesetzten Vertikalen interpretieren – oben vs. unten – während sie denselben Renderer verwenden. Die Mathematik ist in beiden Fällen korrekt, aber die Diskrepanz offenbart eine subtile Mehrdeutigkeit in der Prompt-Interpretation.

OpenClaw-Benutzer melden 143 Millionen verarbeitete Token für 94 US-Dollar über OpenRouter.
Ein Reddit-Nutzer, der OpenClaw-Multi-Agent-Pipelines ausführt, verarbeitete 143 Millionen Tokens für 94,16 US-Dollar und erreichte damit Kosten von etwa 0,66 US-Dollar pro Million Tokens, indem er über OpenRouter routete und spezifische Konfigurationsoptimierungen implementierte.