Spark Arena : benchmarks LLM reproductibles pour poids ouverts

La communauté NVIDIA DGX Spark a établi Spark Arena, une plateforme de benchmarking reproductible pour les grands modèles de langage à poids ouvert sur le matériel DGX Spark, répondant aux problèmes antérieurs de rapports incohérents.

Contexte et Problème

NVIDIA a commencé à expédier DGX Spark à la mi-octobre 2025 sous forme de boîtier de bureau avec une mémoire unifiée capable d'exécuter localement de grands modèles, y compris des modèles d'environ 200 milliards de paramètres pour l'inférence. La communauté a identifié un problème récurrent où « tout le monde publie des résultats partiels, puis personne ne peut les reproduire deux semaines plus tard ».

Méthodologie Standardisée

Le 14 octobre 2025, u/ggerganov a publié un fil de discussion sur les performances DGX Spark dans llama.cpp avec une méthodologie claire : mesurer le pré-remplissage (pp) et la génération/décodage (tg) à travers plusieurs profondeurs de contexte et tailles de lots, en utilisant les versions CUDA de llama.cpp avec llama-bench et llama-batched-bench.

Solution Communautaire

La communauté s'est mise d'accord sur des outils standardisés pour la construction d'images d'exécution, l'orchestration et le format de recette, lançant Spark Arena le 11 février 2026.

Meilleurs Performants Actuels

Meilleurs résultats en tokens/sec de décodage de Spark Arena :

gpt-oss-120b (vLLM, MXFP4, 2 nœuds) : 75,96 tok/s
Qwen3-Coder-Next (SGLang, FP8, 2 nœuds) : 60,51 tok/s
gpt-oss-120b (vLLM, MXFP4, nœud unique) : 58,82 tok/s
NVIDIA-Nemotron-3-Nano-30B-A3B (vLLM, NVFP4, nœud unique) : 56,11 tok/s

Implications Pratiques

Cette approche standardisée fournit aux développeurs des données de performances fiables pour sélectionner et configurer des LLM à poids ouvert sur le matériel DGX Spark, permettant des décisions mieux informées concernant le déploiement et l'optimisation des modèles.

📖 Lire la source complète : r/clawdbot

La communauté NVIDIA DGX Spark lance Spark Arena pour des benchmarks LLM reproductibles

Contexte et Problème

Méthodologie Standardisée

Solution Communautaire

Meilleurs Performants Actuels

Implications Pratiques

👀 See Also

L'IA Pointer de Google DeepMind : Réinventer la souris pour les interactions avec Gemini

L'analyse de Goldman Sachs montre un impact minimal de l'IA sur la croissance du PIB américain en 2025.

Un standard ouvert pour les enregistrements d’exécution d’agents : Plaidoyer pour un schéma de log partagé

Claude-Code v2.1.78 : État des Plugins, Réponses en Flux et Corrections Critiques