M1 UltraでNemotron 3 Super 120Bの1Mトークンコンテキストをテスト

Nemotron 3 Superによるローカル100万トークンコンテキストテスト

Redditユーザーが、M1 Ultraシステム上でNemotron 3 Super 120Bを使用して100万トークンのコンテキストをローカルで処理する実現可能性を評価するベンチマークテストを実施しました。このテストでは、拡大したコンテキスト長においてメモリ効率を提供するモデルのハイブリッドmamba-2アーキテクチャを活用しました。

ハードウェアとセットアップ詳細

テストはM1 Ultra上でllama.cppを使用し、以下の設定で実行されました：

モデル：Nemotron-3-Super-120B-Q4_K.gguf（Q4_K_M量子化）
コンテキスト割り当て：完全な100万トークン
VRAM使用量：約90GB
バックエンド：MTL,BLAS、スレッド数1
統合バッチサイズ：2048
フラッシュアテンション：有効（fa 1）
GPUレイヤー：99（-ngl 99）

ベンチマークコマンドと結果

ユーザーは以下のコマンドでllama-benchを実行しました：

llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000

ベンチマークからの主要なパフォーマンス結果：

プロンプト処理（pp512）、コンテキスト0時：255.03 ± 0.36 トークン/秒
トークン生成（tg128）、コンテキスト0時：26.72 ± 0.02 トークン/秒
プロンプト処理、10万トークンコンテキスト時：184.99 ± 0.19 トークン/秒
トークン生成、10万トークンコンテキスト時：22.37 ± 0.01 トークン/秒
プロンプト処理、15万トークンコンテキスト時：161.60 ± 0.22 トークン/秒
トークン生成、15万トークンコンテキスト時：20.58 ± 0.01 トークン/秒
プロンプト処理、20万トークンコンテキスト時：141.87 ± 0.19 トークン/秒

結果は、コンテキスト長が増加するにつれてパフォーマンスが低下することを示しており、プロンプト処理速度はコンテキスト0時の255 t/sから、20万トークン時には約142 t/sまで低下しています。

システム情報

Metalバックエンドの初期化では以下が表示されました：

GPU名：MTL0
GPUファミリー：MTLGPUFamilyApple7（1007）
統合メモリを有する：true
bfloatサポートを有する：true
推奨最大ワーキングセットサイズ：134,217.73 MB

このテストは、極めて大きなコンテキスト（最大100万トークン）のローカル処理が、ハイエンドのApple Siliconハードウェアと量子化モデルを使用すれば技術的に可能であることを実証していますが、コンテキストが拡大するにつれて、かなりのメモリ要件とパフォーマンスのトレードオフが伴います。

📖 Read the full source: r/LocalLLaMA

M1 Ultraで1MトークンコンテキストのNemotron 3 Super 120Bをベンチマーク

Nemotron 3 Superによるローカル100万トークンコンテキストテスト

ハードウェアとセットアップ詳細

ベンチマークコマンドと結果

システム情報

👀 See Also

リコール：Claude Code用の永続メモリMCPサーバー

Cortex v1.2では、LLMによる情報強化、引用付きQ&A、およびコンフリクト解決機能が追加されました。

エア：Rustで書かれたPython用SIMDコンパイラ

OpenClawモデル性能レビュー：Codex 5.3が首位、GLMモデルは期待外れ