Spark Arena: воспроизводимые тесты LLM от NVIDIA DGX

Сообщество NVIDIA DGX Spark создало Spark Arena — воспроизводимую платформу для тестирования открытых больших языковых моделей на оборудовании DGX Spark, решая проблему несогласованной отчетности.

Предыстория и проблема

NVIDIA начала поставки DGX Spark в середине октября 2025 года в виде настольного устройства с единой памятью, способного локально запускать большие модели, включая модели с ~200 миллиардами параметров для вывода. Сообщество выявило повторяющуюся проблему: «все публикуют частичные результаты, а через две недели никто не может их воспроизвести».

Стандартизированная методология

14 октября 2025 года пользователь u/ggerganov опубликовал в llama.cpp тему о производительности DGX Spark с четкой методологией: измерение предзаполнения (pp) и генерации/декодирования (tg) при различных глубинах контекста и размерах пакетов с использованием CUDA-сборок llama.cpp и инструментов llama-bench и llama-batched-bench.

Решение сообщества

Сообщество согласовало стандартизированные инструменты для сборки образов среды выполнения, оркестрации и формата рецептов, запустив Spark Arena 11 февраля 2026 года.

Текущие лидеры производительности

Лучшие результаты по токенам/сек в декодировании из Spark Arena:

gpt-oss-120b (vLLM, MXFP4, 2 узла): 75.96 ток/с
Qwen3-Coder-Next (SGLang, FP8, 2 узла): 60.51 ток/с
gpt-oss-120b (vLLM, MXFP4, один узел): 58.82 ток/с
NVIDIA-Nemotron-3-Nano-30B-A3B (vLLM, NVFP4, один узел): 56.11 ток/с

Практические последствия

Этот стандартизированный подход предоставляет разработчикам надежные данные о производительности для выбора и настройки открытых больших языковых моделей на оборудовании DGX Spark, позволяя принимать более обоснованные решения о развертывании и оптимизации моделей.

📖 Read the full source: r/clawdbot