Spark Arena 출시: NVIDIA DGX Spark 커뮤니티, 재현 가능한 LLM 벤치마크 오픈

NVIDIA DGX Spark 커뮤니티는 DGX Spark 하드웨어에서 오픈 웨이트 대규모 언어 모델을 위한 재현 가능한 벤치마킹 플랫폼인 Spark Arena를 설립하여, 이전에 존재했던 일관되지 않은 보고 문제를 해결했습니다.

배경과 문제점

NVIDIA는 2025년 10월 중순에 DGX Spark를 데스크탑 박스 형태로 출시하기 시작했으며, 통합 메모리를 통해 대규모 모델을 로컬에서 실행할 수 있어 추론을 위한 약 200B 파라미터 모델도 포함됩니다. 커뮤니티는 "모두가 부분적인 결과만 게시하고, 두 주 후에는 아무도 재현할 수 없다"는 반복적인 문제를 확인했습니다.

표준화된 방법론

2025년 10월 14일, u/ggerganov는 llama.cpp에 DGX Spark 성능 스레드를 게시하며 명확한 방법론을 제시했습니다: 여러 컨텍스트 깊이와 배치 크기에 걸쳐 프리필(pp)과 생성/디코드(tg)를 측정하며, llama.cpp CUDA 빌드와 llama-bench 및 llama-batched-bench를 사용합니다.

커뮤니티 솔루션

커뮤니티는 런타임 이미지 빌딩, 오케스트레이션 및 레시피 형식을 위한 표준화된 도구에 합의하여, 2026년 2월 11일에 Spark Arena를 출시했습니다.

현재 성능 선두주자

Spark Arena의 최고 디코드 토큰/초 결과:

gpt-oss-120b (vLLM, MXFP4, 2 노드): 75.96 토큰/초
Qwen3-Coder-Next (SGLang, FP8, 2 노드): 60.51 토큰/초
gpt-oss-120b (vLLM, MXFP4, 단일 노드): 58.82 토큰/초
NVIDIA-Nemotron-3-Nano-30B-A3B (vLLM, NVFP4, 단일 노드): 56.11 토큰/초

실질적 영향

이 표준화된 접근 방식은 개발자들에게 DGX Spark 하드웨어에서 오픈 웨이트 LLM을 선택하고 구성하기 위한 신뢰할 수 있는 성능 데이터를 제공하여, 모델 배포 및 최적화에 대한 더 나은 결정을 내릴 수 있게 합니다.

📖 전체 출처 읽기: r/clawdbot

NVIDIA DGX Spark 커뮤니티, 재현 가능한 LLM 벤치마크를 위한 Spark Arena 출시

배경과 문제점

표준화된 방법론

커뮤니티 솔루션

현재 성능 선두주자

실질적 영향

👀 See Also

Anthropic DNS 활동에서 새로운 STT 서비스, API RC2, 터널 인프라가 발견됐습니다

클로드는 2주 동안 피크 시간 외 사용 제한을 두 배로 늘립니다.

GitHub Copilot이 PR 설명에 자체 홍보를 삽입했습니다

왜 모든 고객이 지금 챗봇을 원하는가 (그리고 왜 이것이 새로운 캐러셀인가)