Сообщество NVIDIA DGX Spark запускает Spark Arena для воспроизводимых тестов LLM.

✍️ OpenClawRadar📅 Опубликовано: 1 марта 2026 г.🔗 Source
Сообщество NVIDIA DGX Spark запускает Spark Arena для воспроизводимых тестов LLM.
Ad

Сообщество NVIDIA DGX Spark создало Spark Arena — воспроизводимую платформу для тестирования открытых больших языковых моделей на оборудовании DGX Spark, решая проблему несогласованной отчетности.

Предыстория и проблема

NVIDIA начала поставки DGX Spark в середине октября 2025 года в виде настольного устройства с единой памятью, способного локально запускать большие модели, включая модели с ~200 миллиардами параметров для вывода. Сообщество выявило повторяющуюся проблему: «все публикуют частичные результаты, а через две недели никто не может их воспроизвести».

Стандартизированная методология

14 октября 2025 года пользователь u/ggerganov опубликовал в llama.cpp тему о производительности DGX Spark с четкой методологией: измерение предзаполнения (pp) и генерации/декодирования (tg) при различных глубинах контекста и размерах пакетов с использованием CUDA-сборок llama.cpp и инструментов llama-bench и llama-batched-bench.

Ad

Решение сообщества

Сообщество согласовало стандартизированные инструменты для сборки образов среды выполнения, оркестрации и формата рецептов, запустив Spark Arena 11 февраля 2026 года.

Текущие лидеры производительности

Лучшие результаты по токенам/сек в декодировании из Spark Arena:

  • gpt-oss-120b (vLLM, MXFP4, 2 узла): 75.96 ток/с
  • Qwen3-Coder-Next (SGLang, FP8, 2 узла): 60.51 ток/с
  • gpt-oss-120b (vLLM, MXFP4, один узел): 58.82 ток/с
  • NVIDIA-Nemotron-3-Nano-30B-A3B (vLLM, NVFP4, один узел): 56.11 ток/с

Практические последствия

Этот стандартизированный подход предоставляет разработчикам надежные данные о производительности для выбора и настройки открытых больших языковых моделей на оборудовании DGX Spark, позволяя принимать более обоснованные решения о развертывании и оптимизации моделей.

📖 Read the full source: r/clawdbot

Ad

👀 Смотрите также

Кризис доступности ИИ: OpenAI и Anthropic тратят $8–$14, чтобы заработать $1
Новости

Кризис доступности ИИ: OpenAI и Anthropic тратят $8–$14, чтобы заработать $1

Анализ DSHR показывает, что платформы ИИ субсидируют токены в 40-70 раз; OpenAI потеряла $38,5 млрд в 2025 году при доходе $13 млрд, потратив 44% на продажи и маркетинг.

OpenClawRadar
Claude-Code версии 2.1.92 добавляет мастер настройки Bedrock, детализацию затрат и несколько исправлений.
Новости

Claude-Code версии 2.1.92 добавляет мастер настройки Bedrock, детализацию затрат и несколько исправлений.

Claude-Code v2.1.92 представляет интерактивный мастер настройки AWS Bedrock, детализацию затрат по моделям для подписчиков, а также исправления ошибок, связанных с созданием суб-агентов, хуками промптов и проблемами отображения в терминале. В релизе также удалены команды /tag и /vim.

OpenClawRadar
Обновление OpenClaw 3.31 сбрасывает разрешения и настройки агента.
Новости

Обновление OpenClaw 3.31 сбрасывает разрешения и настройки агента.

Обновление OpenClaw 3.31 автоматически отключило все инструменты агентов, разрешения на доступ к компьютеру и подчинённых агентов, требуя ручного повторного включения в Настройках. Обновление также изменило принцип работы запросов на разрешения, больше не запрашивая подтверждение во время использования.

OpenClawRadar
Kimi K2.6 против Claude Opus 4.7: Практическое сравнение кода на примере мода для Minetest с интеграцией Google Sheets
Новости

Kimi K2.6 против Claude Opus 4.7: Практическое сравнение кода на примере мода для Minetest с интеграцией Google Sheets

Разработчик протестировал Kimi K2.6 и Claude Opus 4.7 на создании мода доски объявлений для Minetest с бэкендом на TypeScript и логированием в Google Sheets. Opus справился с обеими задачами; Kimi прошел локальную задачу, но провалил интеграцию. Затраты: Opus ~$3.59 локально, $16.03 с интеграцией; Kimi $0.39 локально, $5.03 неудачно.

OpenClawRadar