Blackwell LLMツールキット:RTX Pro 6000上でのTensorRT-LLM用NVFP4構成、ホイール、ベンチマーク

✍️ OpenClawRadar📅 公開日: May 12, 2026🔗 Source
Blackwell LLMツールキット:RTX Pro 6000上でのTensorRT-LLM用NVFP4構成、ホイール、ベンチマーク
Ad

GitHub上の新しいリポジトリblackwell-llm-toolkitは、Nvidia Blackwell GPU(RTX Pro 6000、5090、5080、5070 Ti)上でLLMを実行するためのTensorRT-LLM設定、プリビルドホイール、ベンチマーク結果をまとめたものです。焦点はNVFP4量子化とプラットフォーム固有の障害の克服です。

主な機能

  • TensorRT-LLM設定: Blackwell上でMambaハイブリッドモデルを実行するために必要な、分かりにくい起動フラグを含むYAMLファイル(configs/trtllm/nemotron-omni-v3-sm120.yaml)を提供。
  • LMCacheホイール: PyPIのホイールはsm_120 cubinが欠落しているためBlackwellでクラッシュしていました。本リポジトリは再ビルドしたホイールとビルドスクリプトを提供し、Optane SSDを使用したKVキャッシュオフロードでテスト済み。
  • 研究ドキュメント: AI生成による、Nemotron Omni V3、Qwen 3.5/3.6、Gemma 4のアーキテクチャの違いに関する詳細な解説。特に、Qwen 3.5/3.6は単なるQwen3-VLの名称変更ではなく、完全に異なるアーキテクチャを持ちます。
  • ベンチマークハーネス: rapid_bench.pyは41プロンプトの品質評価(インテリジェンス、ツール使用、キャリブレーション、オーケストレーション、クリエイティブライティング)を実行。bench_harness.pyは持続的なデコード、TTFT、プリフィル、同時実行性を測定し、長いコンテキスト向けの--prompt-tokens Nモードも備えています。
Ad

ベンチマークハイライト(RTX Pro 6000 96GB 1台、TPなし)

  • Nemotron-3-Nano-Omni V3(マルチモーダル、NVFP4、8Kコンテキスト): 270 tok/s。テストした中で最速のモデルで、画像・動画・音声+テキストを処理。TRT-LLM v1.3.0rc13が必要。
  • Nemotron-3-Nano(テキストのみ、NVFP4、8Kコンテキスト): 249 tok/s。ツール呼び出しエージェントに最適(ツールスコア10/10)。
  • DeepSeek-V4-Flash(IQ2_XXS-XL GGUF、65Kコンテキスト): 31 tok/s。複雑な推論に最適(インテリジェンス9/10、ツール10/10、キャリブレーション13/13)。
  • MiniMax-M2.7-REAP-172B(Q3_K_S GGUF、196Kコンテキスト): 117 tok/s。長い会話に適しています。
  • MiniMax-M2.7 W4A16(Optane SSD上のLMCache使用、154Kコンテキスト): 20-22 tok/s。長いコンテキストでのW4A16品質。
  • MiniMax-M2.7 W4A16(短いコンテキスト、LMCacheなし、64Kコンテキスト): 22-25 tok/s。最高品質の短い回答(インテリジェンス10/10)。

完全な結果(TTFT、プリフィル速度、同時実行性、評価スコア)はbench/results.mdにあります。

対象読者

Blackwell GPU上でLLM推論を実行する開発者や研究者で、最適化されたTensorRT-LLM設定、長いコンテキストオフロードのためのプリビルドLMCache、またはモデル選択のための実際のベンチマークデータを必要とする方。

📖 全文を読む: r/LocalLLaMA

Ad

👀 See Also

VT Code: オープンソースのRust製TUIコーディングエージェント - マルチプロバイダ対応とエージェントスキル搭載
Tools

VT Code: オープンソースのRust製TUIコーディングエージェント - マルチプロバイダ対応とエージェントスキル搭載

VT Codeは、RustベースのターミナルUI(TUI)コーディングエージェントで、Anthropic、OpenAI、Gemini、Codexをサポートし、LM StudioとOllamaを介したローカル推論も可能です。Agent Skills、Model Context Protocol、Agent Client Protocolに対応しています。

OpenClawRadar
構造化されたClaudeスキルによるB2B SaaS成長ワークフロー
Tools

構造化されたClaudeスキルによるB2B SaaS成長ワークフロー

開発者が、B2B SaaSの成長に関する知識をプレイブックやケーススタディとして体系化し、Claudeの出力品質を向上させるClaude Skillをオープンソース化しました。このリポジトリには、5つのSaaSケーススタディ、4段階の成長フライホイール、および6つの体系化されたプレイブックが含まれています。

OpenClawRadar
context-link v1.0.0:ローカルMCPサーバーがClaude Codeのトークン使用量を91%削減
Tools

context-link v1.0.0:ローカルMCPサーバーがClaude Codeのトークン使用量を91%削減

context-link v1.0.0は、Tree-sitterを使用してコードベースをインデックス化し、Claudeに必要な正確なシンボル、依存関係、構造のみを提供するローカルMCPサーバーで、特定のケースではトークン使用量を91%削減し、完全なタスク全体では70〜80%削減します。

OpenClawRadar
Mengram AI:Claudeコードセッション用自動メモリーツール
Tools

Mengram AI:Claudeコードセッション用自動メモリーツール

Mengram AIは、認知プロファイルを読み込み、関連する過去のコンテキストをプロンプトに注入し、新しい知識を保存することで、Claude Codeセッション間のコンテキストを自動的に維持します。失敗に基づいて進化する意味的記憶、エピソード記憶、手続き記憶を保存します。

OpenClawRadar