Spark Arena：NVIDIA DGX Spark向け再現可能LLMベンチマーク公開

NVIDIA DGX Sparkコミュニティは、DGX Sparkハードウェア上でのオープンウェイト大規模言語モデルの再現可能なベンチマークプラットフォーム「Spark Arena」を確立し、従来の一貫性のないレポートの問題に対処しました。

背景と課題

NVIDIAは2025年10月中旬に、ローカルで大規模モデル（約200Bパラメータモデルの推論を含む）を実行可能な統一メモリを備えたデスクトップボックスとしてDGX Sparkの出荷を開始しました。コミュニティは「誰もが部分的な結果を投稿し、2週間後には誰も再現できなくなる」という繰り返し発生する問題を特定しました。

標準化された方法論

2025年10月14日、u/ggerganovはllama.cppにDGX Spark性能スレッドを投稿し、明確な方法論を提示しました：複数のコンテキスト深度とバッチサイズにわたるプリフィル（pp）と生成/デコード（tg）を測定し、llama.cpp CUDAビルドとllama-benchおよびllama-batched-benchを使用します。

コミュニティによる解決策

コミュニティは、ランタイムイメージ構築、オーケストレーション、レシピ形式のための標準化ツールに合意し、2026年2月11日にSpark Arenaを立ち上げました。

現在の性能リーダー

Spark Arenaからのトップデコードトークン/秒結果：

gpt-oss-120b（vLLM、MXFP4、2ノード）：75.96 tok/s
Qwen3-Coder-Next（SGLang、FP8、2ノード）：60.51 tok/s
gpt-oss-120b（vLLM、MXFP4、シングルノード）：58.82 tok/s
NVIDIA-Nemotron-3-Nano-30B-A3B（vLLM、NVFP4、シングルノード）：56.11 tok/s

実用的な意義

この標準化されたアプローチは、DGX Sparkハードウェア上でオープンウェイトLLMを選択・設定するための信頼性の高い性能データを開発者に提供し、モデルのデプロイメントと最適化に関するより情報に基づいた意思決定を可能にします。

📖 全文を読む： r/clawdbot

NVIDIA DGX Sparkコミュニティ、再現可能なLLMベンチマークのためのSpark Arenaを立ち上げ

背景と課題

標準化された方法論

コミュニティによる解決策

現在の性能リーダー

実用的な意義

👀 See Also

君 $19/月アップデート：構造化モデルによるOpenClawの強化

Claude Codeのバグ：自動git resetが10分ごとに未コミットの変更を破壊します

100GB未満のオープンウェイトモデルは、コーディングベンチマークでClaude Haikuに勝てません。

AIサブスクリプション価格の暴落：あなたの企業請求額が10倍になる理由

背景と課題

標準化された方法論

コミュニティによる解決策

現在の性能リーダー

実用的な意義

👀 See Also

君 $19/月 アップデート：構造化モデルによるOpenClawの強化

Claude Codeのバグ：自動git resetが10分ごとに未コミットの変更を破壊します

100GB未満のオープンウェイトモデルは、コーディングベンチマークでClaude Haikuに勝てません。

AIサブスクリプション価格の暴落：あなたの企業請求額が10倍になる理由

君 $19/月アップデート：構造化モデルによるOpenClawの強化