TensorRT-LLM Blackwell 설정: RTX Pro 6000 NVFP4 벤치마크 270 tok/s

GitHub의 새로운 저장소인 blackwell-llm-toolkit은 Nvidia Blackwell GPU(RTX Pro 6000, 5090, 5080, 5070 Ti)에서 LLM을 실행하기 위한 TensorRT-LLM 설정, 사전 빌드된 휠, 벤치마크 결과를 모아 놓았습니다. 주요 초점은 NVFP4 양자화와 플랫폼별 장애물 극복에 있습니다.

주요 기능

TensorRT-LLM 설정: Blackwell에서 Mamba-하이브리드 모델을 실행하는 데 필요한 드문 플래그가 포함된 YAML 파일(configs/trtllm/nemotron-omni-v3-sm120.yaml)을 제공합니다.
LMCache 휠: PyPI 휠은 Blackwell에서 sm_120 cubin이 없어 충돌했습니다. 저장소는 재빌드된 휠과 빌드 스크립트를 제공하며, Optane SSD로 KV 캐시 오프로딩을 테스트했습니다.
연구 문서: AI가 생성한 Nemotron Omni V3, Qwen 3.5/3.6, Gemma 4의 아키텍처 차이에 대한 심층 분석입니다. 특히 Qwen 3.5/3.6은 단순히 이름이 바뀐 Qwen3-VL이 아니라 완전히 다른 아키텍처를 가지고 있습니다.
벤치마크 도구: rapid_bench.py는 41개 프롬프트 품질 평가(지능, 도구 사용, 보정, 오케스트레이션, 창작)를 실행합니다. bench_harness.py는 지속적인 디코딩, TTFT, 프리필, 동시성을 측정하며, 긴 컨텍스트를 위한 --prompt-tokens N 모드를 제공합니다.

벤치마크 하이라이트 (단일 RTX Pro 6000 96GB, TP 없음)

Nemotron-3-Nano-Omni V3 (멀티모달, NVFP4, 8k 컨텍스트): 270 tok/s. 가장 빠른 테스트 모델로 이미지/비디오/오디오+텍스트를 처리합니다. TRT-LLM v1.3.0rc13이 필요합니다.
Nemotron-3-Nano (텍스트 전용, NVFP4, 8k 컨텍스트): 249 tok/s. 도구 호출 에이전트에 최적(도구 10/10).
DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, 65k 컨텍스트): 31 tok/s. 복잡한 추론에 최적(지능 9/10, 도구 10/10, 보정 13/13).
MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, 196k 컨텍스트): 117 tok/s. 긴 대화에 적합.
MiniMax-M2.7 W4A16 (LMCache on Optane SSD, 154k 컨텍스트): 20-22 tok/s. 긴 컨텍스트 W4A16 품질.
MiniMax-M2.7 W4A16 (짧은 컨텍스트, LMCache 없음, 64k 컨텍스트): 22-25 tok/s. 최고 품질의 짧은 답변(지능 10/10).