RTX Pro 6000で270 tok/s：Blackwell LLMツールキットのNVFP4設定とベンチマーク

GitHub上の新しいリポジトリblackwell-llm-toolkitは、Nvidia Blackwell GPU（RTX Pro 6000、5090、5080、5070 Ti）上でLLMを実行するためのTensorRT-LLM設定、プリビルドホイール、ベンチマーク結果をまとめたものです。焦点はNVFP4量子化とプラットフォーム固有の障害の克服です。

主な機能

TensorRT-LLM設定: Blackwell上でMambaハイブリッドモデルを実行するために必要な、分かりにくい起動フラグを含むYAMLファイル（configs/trtllm/nemotron-omni-v3-sm120.yaml）を提供。
LMCacheホイール: PyPIのホイールはsm_120 cubinが欠落しているためBlackwellでクラッシュしていました。本リポジトリは再ビルドしたホイールとビルドスクリプトを提供し、Optane SSDを使用したKVキャッシュオフロードでテスト済み。
研究ドキュメント: AI生成による、Nemotron Omni V3、Qwen 3.5/3.6、Gemma 4のアーキテクチャの違いに関する詳細な解説。特に、Qwen 3.5/3.6は単なるQwen3-VLの名称変更ではなく、完全に異なるアーキテクチャを持ちます。
ベンチマークハーネス: rapid_bench.pyは41プロンプトの品質評価（インテリジェンス、ツール使用、キャリブレーション、オーケストレーション、クリエイティブライティング）を実行。bench_harness.pyは持続的なデコード、TTFT、プリフィル、同時実行性を測定し、長いコンテキスト向けの--prompt-tokens Nモードも備えています。

ベンチマークハイライト（RTX Pro 6000 96GB 1台、TPなし）

Nemotron-3-Nano-Omni V3（マルチモーダル、NVFP4、8Kコンテキスト）: 270 tok/s。テストした中で最速のモデルで、画像・動画・音声+テキストを処理。TRT-LLM v1.3.0rc13が必要。
Nemotron-3-Nano（テキストのみ、NVFP4、8Kコンテキスト）: 249 tok/s。ツール呼び出しエージェントに最適（ツールスコア10/10）。
DeepSeek-V4-Flash（IQ2_XXS-XL GGUF、65Kコンテキスト）: 31 tok/s。複雑な推論に最適（インテリジェンス9/10、ツール10/10、キャリブレーション13/13）。
MiniMax-M2.7-REAP-172B（Q3_K_S GGUF、196Kコンテキスト）: 117 tok/s。長い会話に適しています。
MiniMax-M2.7 W4A16（Optane SSD上のLMCache使用、154Kコンテキスト）: 20-22 tok/s。長いコンテキストでのW4A16品質。
MiniMax-M2.7 W4A16（短いコンテキスト、LMCacheなし、64Kコンテキスト）: 22-25 tok/s。最高品質の短い回答（インテリジェンス10/10）。