M1 Ultraで1MトークンコンテキストのNemotron 3 Super 120Bをベンチマーク

Nemotron 3 Superによるローカル100万トークンコンテキストテスト
Redditユーザーが、M1 Ultraシステム上でNemotron 3 Super 120Bを使用して100万トークンのコンテキストをローカルで処理する実現可能性を評価するベンチマークテストを実施しました。このテストでは、拡大したコンテキスト長においてメモリ効率を提供するモデルのハイブリッドmamba-2アーキテクチャを活用しました。
ハードウェアとセットアップ詳細
テストはM1 Ultra上でllama.cppを使用し、以下の設定で実行されました:
- モデル:Nemotron-3-Super-120B-Q4_K.gguf(Q4_K_M量子化)
- コンテキスト割り当て:完全な100万トークン
- VRAM使用量:約90GB
- バックエンド:MTL,BLAS、スレッド数1
- 統合バッチサイズ:2048
- フラッシュアテンション:有効(fa 1)
- GPUレイヤー:99(-ngl 99)
ベンチマークコマンドと結果
ユーザーは以下のコマンドでllama-benchを実行しました:
llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000ベンチマークからの主要なパフォーマンス結果:
- プロンプト処理(pp512)、コンテキスト0時:255.03 ± 0.36 トークン/秒
- トークン生成(tg128)、コンテキスト0時:26.72 ± 0.02 トークン/秒
- プロンプト処理、10万トークンコンテキスト時:184.99 ± 0.19 トークン/秒
- トークン生成、10万トークンコンテキスト時:22.37 ± 0.01 トークン/秒
- プロンプト処理、15万トークンコンテキスト時:161.60 ± 0.22 トークン/秒
- トークン生成、15万トークンコンテキスト時:20.58 ± 0.01 トークン/秒
- プロンプト処理、20万トークンコンテキスト時:141.87 ± 0.19 トークン/秒
結果は、コンテキスト長が増加するにつれてパフォーマンスが低下することを示しており、プロンプト処理速度はコンテキスト0時の255 t/sから、20万トークン時には約142 t/sまで低下しています。
システム情報
Metalバックエンドの初期化では以下が表示されました:
- GPU名:MTL0
- GPUファミリー:MTLGPUFamilyApple7(1007)
- 統合メモリを有する:true
- bfloatサポートを有する:true
- 推奨最大ワーキングセットサイズ:134,217.73 MB
このテストは、極めて大きなコンテキスト(最大100万トークン)のローカル処理が、ハイエンドのApple Siliconハードウェアと量子化モデルを使用すれば技術的に可能であることを実証していますが、コンテキストが拡大するにつれて、かなりのメモリ要件とパフォーマンスのトレードオフが伴います。
📖 Read the full source: r/LocalLLaMA
👀 See Also

OpenBridge: Slack/Discord経由でClaude Codeをリモート制御する無料のオープンソースツール
OpenBridgeは、SlackやDiscordからClaude Codeを制御できる無料のオープンソースツールで、プロジェクトをチャンネルとして、会話をスレッドとして整理します。ローカルまたはVPS上で動作し、既存のClaude Code/Codexサブスクリプションと連携して追加のAPI料金なしで利用できます。

エージェントレンズ:マルチエージェントAIワークフロー向け可観測性ツール
AgentLensは、Ollama、vLLM、Anthropic、OpenAIにまたがる統一トレーシングを提供し、コスト追跡、Claude Codeから統計を照会するためのMCPサーバー、インライン確認のためのCLIを備えています。セルフホスト型で、Dockerを介してローカルで実行されます。

Hollow AgentOSは、JSONネイティブOSをAIエージェント向けに採用し、Claude Codeのトークン使用量を68.5%削減します。
Hollow AgentOSは、AIエージェント向けに設計されたJSONネイティブのオペレーティングシステムで、Claude Codeのトークン使用量を68.5%削減します。不要なシェルコマンドのオーバーヘッドを排除することで実現しています。MCP経由でClaude Codeに接続し、Ollamaを通じてローカル推論を実行します。MITライセンスで提供されています。

syntaqliteの構築:AI支援で作成されたSQLite開発ツールプロジェクト
ラリット・マガンティは、8年間欲しかったSQLite用の開発者ツールセット「syntaqlite」を、AIコーディングエージェントを使って3か月で構築しました。このプロジェクトでは、400以上の文法ルールを含むSQLiteの高密度なCコードベースを適応させ、SQLiteと全く同じようにSQLを解析する必要がありました。