A Comunidade NVIDIA DGX Spark Lança a Spark Arena para Benchmarks Reprodutíveis de LLMs.

✍️ OpenClawRadar📅 Publicado: March 1, 2026🔗 Source
A Comunidade NVIDIA DGX Spark Lança a Spark Arena para Benchmarks Reprodutíveis de LLMs.
Ad

A comunidade NVIDIA DGX Spark estabeleceu o Spark Arena, uma plataforma de benchmarking reproduzível para grandes modelos de linguagem de pesos abertos em hardware DGX Spark, abordando problemas anteriores com relatórios inconsistentes.

Contexto e Problema

A NVIDIA começou a enviar o DGX Spark em meados de outubro de 2025 como uma caixa desktop com memória unificada capaz de executar grandes modelos localmente, incluindo modelos de ~200B parâmetros para inferência. A comunidade identificou um problema recorrente onde "todo mundo posta métricas parciais, depois ninguém consegue reproduzir duas semanas depois".

Metodologia Padronizada

Em 14 de outubro de 2025, u/ggerganov postou um tópico de desempenho do DGX Spark no llama.cpp com uma metodologia clara: medindo preenchimento (pp) e geração/decode (tg) em múltiplas profundidades de contexto e tamanhos de lote, usando builds CUDA do llama.cpp com llama-bench e llama-batched-bench.

Ad

Solução da Comunidade

A comunidade concordou com ferramentas padronizadas para construção de imagens de runtime, orquestração e formato de receita, lançando o Spark Arena em 11 de fevereiro de 2026.

Líderes de Desempenho Atuais

Principais resultados de tokens de decode/seg do Spark Arena:

  • gpt-oss-120b (vLLM, MXFP4, 2 nós): 75,96 tok/s
  • Qwen3-Coder-Next (SGLang, FP8, 2 nós): 60,51 tok/s
  • gpt-oss-120b (vLLM, MXFP4, nó único): 58,82 tok/s
  • NVIDIA-Nemotron-3-Nano-30B-A3B (vLLM, NVFP4, nó único): 56,11 tok/s

Implicações Práticas

Esta abordagem padronizada fornece aos desenvolvedores dados de desempenho confiáveis para selecionar e configurar LLMs de pesos abertos em hardware DGX Spark, permitindo decisões mais bem informadas sobre implantação e otimização de modelos.

📖 Leia a fonte completa: r/clawdbot

Ad

👀 See Also