NVIDIA DGX Sparkコミュニティ、再現可能なLLMベンチマークのためのSpark Arenaを立ち上げ

NVIDIA DGX Sparkコミュニティは、DGX Sparkハードウェア上でのオープンウェイト大規模言語モデルの再現可能なベンチマークプラットフォーム「Spark Arena」を確立し、従来の一貫性のないレポートの問題に対処しました。
背景と課題
NVIDIAは2025年10月中旬に、ローカルで大規模モデル(約200Bパラメータモデルの推論を含む)を実行可能な統一メモリを備えたデスクトップボックスとしてDGX Sparkの出荷を開始しました。コミュニティは「誰もが部分的な結果を投稿し、2週間後には誰も再現できなくなる」という繰り返し発生する問題を特定しました。
標準化された方法論
2025年10月14日、u/ggerganovはllama.cppにDGX Spark性能スレッドを投稿し、明確な方法論を提示しました:複数のコンテキスト深度とバッチサイズにわたるプリフィル(pp)と生成/デコード(tg)を測定し、llama.cpp CUDAビルドとllama-benchおよびllama-batched-benchを使用します。
コミュニティによる解決策
コミュニティは、ランタイムイメージ構築、オーケストレーション、レシピ形式のための標準化ツールに合意し、2026年2月11日にSpark Arenaを立ち上げました。
現在の性能リーダー
Spark Arenaからのトップデコードトークン/秒結果:
- gpt-oss-120b(vLLM、MXFP4、2ノード):75.96 tok/s
- Qwen3-Coder-Next(SGLang、FP8、2ノード):60.51 tok/s
- gpt-oss-120b(vLLM、MXFP4、シングルノード):58.82 tok/s
- NVIDIA-Nemotron-3-Nano-30B-A3B(vLLM、NVFP4、シングルノード):56.11 tok/s
実用的な意義
この標準化されたアプローチは、DGX Sparkハードウェア上でオープンウェイトLLMを選択・設定するための信頼性の高い性能データを開発者に提供し、モデルのデプロイメントと最適化に関するより情報に基づいた意思決定を可能にします。
📖 全文を読む: r/clawdbot
👀 See Also

君 $19/月 アップデート:構造化モデルによるOpenClawの強化
Kimiは、OpenClaw内のモデル構造化の強化に焦点を当てた最新アップデートを月額19ドルで導入しました。このアップデートは、効率的な運用と自動化機能の向上を約束します。

Claude Codeのバグ:自動git resetが10分ごとに未コミットの変更を破壊します
Claude Codeバージョン2.1.87は、プログラムによるgit操作を通じて、ユーザーのプロジェクトリポジトリに対して10分ごとにgit fetch origin + git reset --hard origin/mainを実行し、追跡ファイルに対するすべての未コミットの変更を黙って破棄します。この問題はAnthropicsによって「計画されていない」としてクローズされました。

100GB未満のオープンウェイトモデルは、コーディングベンチマークでClaude Haikuに勝てません。
LiveBenchとArena Code/WebDevベンチマークにおけるオープンウェイトモデルの比較によると、100GB未満のモデルではClaude Haiku 4.5に匹敵するものはありません。最も近い競合モデルは136GBのMinimax M2.5で、Haikuの性能とほぼ同等です。

AIサブスクリプション価格の暴落:あなたの企業請求額が10倍になる理由
OpenAI、Anthropic、MicrosoftなどのAIラボは、すべてのサブスクリプションシートで赤字を出している。エージェント型ワークロードが定額制モデルを破綻させ、GitHub Copilotは2026年6月1日から従量課金制に移行する。補助金価格で構築したエンタープライズ企業は、価格修正に直面する。