Сообщество NVIDIA DGX Spark запускает Spark Arena для воспроизводимых тестов LLM.

Сообщество NVIDIA DGX Spark создало Spark Arena — воспроизводимую платформу для тестирования открытых больших языковых моделей на оборудовании DGX Spark, решая проблему несогласованной отчетности.
Предыстория и проблема
NVIDIA начала поставки DGX Spark в середине октября 2025 года в виде настольного устройства с единой памятью, способного локально запускать большие модели, включая модели с ~200 миллиардами параметров для вывода. Сообщество выявило повторяющуюся проблему: «все публикуют частичные результаты, а через две недели никто не может их воспроизвести».
Стандартизированная методология
14 октября 2025 года пользователь u/ggerganov опубликовал в llama.cpp тему о производительности DGX Spark с четкой методологией: измерение предзаполнения (pp) и генерации/декодирования (tg) при различных глубинах контекста и размерах пакетов с использованием CUDA-сборок llama.cpp и инструментов llama-bench и llama-batched-bench.
Решение сообщества
Сообщество согласовало стандартизированные инструменты для сборки образов среды выполнения, оркестрации и формата рецептов, запустив Spark Arena 11 февраля 2026 года.
Текущие лидеры производительности
Лучшие результаты по токенам/сек в декодировании из Spark Arena:
- gpt-oss-120b (vLLM, MXFP4, 2 узла): 75.96 ток/с
- Qwen3-Coder-Next (SGLang, FP8, 2 узла): 60.51 ток/с
- gpt-oss-120b (vLLM, MXFP4, один узел): 58.82 ток/с
- NVIDIA-Nemotron-3-Nano-30B-A3B (vLLM, NVFP4, один узел): 56.11 ток/с
Практические последствия
Этот стандартизированный подход предоставляет разработчикам надежные данные о производительности для выбора и настройки открытых больших языковых моделей на оборудовании DGX Spark, позволяя принимать более обоснованные решения о развертывании и оптимизации моделей.
📖 Read the full source: r/clawdbot
👀 Смотрите также

Кризис доступности ИИ: OpenAI и Anthropic тратят $8–$14, чтобы заработать $1
Анализ DSHR показывает, что платформы ИИ субсидируют токены в 40-70 раз; OpenAI потеряла $38,5 млрд в 2025 году при доходе $13 млрд, потратив 44% на продажи и маркетинг.

Claude-Code версии 2.1.92 добавляет мастер настройки Bedrock, детализацию затрат и несколько исправлений.
Claude-Code v2.1.92 представляет интерактивный мастер настройки AWS Bedrock, детализацию затрат по моделям для подписчиков, а также исправления ошибок, связанных с созданием суб-агентов, хуками промптов и проблемами отображения в терминале. В релизе также удалены команды /tag и /vim.

Обновление OpenClaw 3.31 сбрасывает разрешения и настройки агента.
Обновление OpenClaw 3.31 автоматически отключило все инструменты агентов, разрешения на доступ к компьютеру и подчинённых агентов, требуя ручного повторного включения в Настройках. Обновление также изменило принцип работы запросов на разрешения, больше не запрашивая подтверждение во время использования.

Kimi K2.6 против Claude Opus 4.7: Практическое сравнение кода на примере мода для Minetest с интеграцией Google Sheets
Разработчик протестировал Kimi K2.6 и Claude Opus 4.7 на создании мода доски объявлений для Minetest с бэкендом на TypeScript и логированием в Google Sheets. Opus справился с обеими задачами; Kimi прошел локальную задачу, но провалил интеграцию. Затраты: Opus ~$3.59 локально, $16.03 с интеграцией; Kimi $0.39 локально, $5.03 неудачно.