Blackwell LLM 툴킷: RTX Pro 6000에서 TensorRT-LLM을 위한 NVFP4 설정, 휠, 및 벤치마크

GitHub의 새로운 저장소인 blackwell-llm-toolkit은 Nvidia Blackwell GPU(RTX Pro 6000, 5090, 5080, 5070 Ti)에서 LLM을 실행하기 위한 TensorRT-LLM 설정, 사전 빌드된 휠, 벤치마크 결과를 모아 놓았습니다. 주요 초점은 NVFP4 양자화와 플랫폼별 장애물 극복에 있습니다.
주요 기능
- TensorRT-LLM 설정: Blackwell에서 Mamba-하이브리드 모델을 실행하는 데 필요한 드문 플래그가 포함된 YAML 파일(
configs/trtllm/nemotron-omni-v3-sm120.yaml)을 제공합니다. - LMCache 휠: PyPI 휠은 Blackwell에서 sm_120 cubin이 없어 충돌했습니다. 저장소는 재빌드된 휠과 빌드 스크립트를 제공하며, Optane SSD로 KV 캐시 오프로딩을 테스트했습니다.
- 연구 문서: AI가 생성한 Nemotron Omni V3, Qwen 3.5/3.6, Gemma 4의 아키텍처 차이에 대한 심층 분석입니다. 특히 Qwen 3.5/3.6은 단순히 이름이 바뀐 Qwen3-VL이 아니라 완전히 다른 아키텍처를 가지고 있습니다.
- 벤치마크 도구:
rapid_bench.py는 41개 프롬프트 품질 평가(지능, 도구 사용, 보정, 오케스트레이션, 창작)를 실행합니다.bench_harness.py는 지속적인 디코딩, TTFT, 프리필, 동시성을 측정하며, 긴 컨텍스트를 위한--prompt-tokens N모드를 제공합니다.
벤치마크 하이라이트 (단일 RTX Pro 6000 96GB, TP 없음)
- Nemotron-3-Nano-Omni V3 (멀티모달, NVFP4, 8k 컨텍스트): 270 tok/s. 가장 빠른 테스트 모델로 이미지/비디오/오디오+텍스트를 처리합니다. TRT-LLM v1.3.0rc13이 필요합니다.
- Nemotron-3-Nano (텍스트 전용, NVFP4, 8k 컨텍스트): 249 tok/s. 도구 호출 에이전트에 최적(도구 10/10).
- DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, 65k 컨텍스트): 31 tok/s. 복잡한 추론에 최적(지능 9/10, 도구 10/10, 보정 13/13).
- MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, 196k 컨텍스트): 117 tok/s. 긴 대화에 적합.
- MiniMax-M2.7 W4A16 (LMCache on Optane SSD, 154k 컨텍스트): 20-22 tok/s. 긴 컨텍스트 W4A16 품질.
- MiniMax-M2.7 W4A16 (짧은 컨텍스트, LMCache 없음, 64k 컨텍스트): 22-25 tok/s. 최고 품질의 짧은 답변(지능 10/10).
TTFT, 프리필 속도, 동시성, 평가 점수를 포함한 전체 결과는 bench/results.md에 있습니다.
대상 사용자
Blackwell GPU에서 LLM 추론을 실행하는 개발자와 연구자로서 최적화된 TensorRT-LLM 설정, 긴 컨텍스트 오프로딩을 위한 사전 빌드된 LMCache, 또는 모델 선택을 위한 실제 벤치마크 데이터가 필요한 분들을 위한 것입니다.
📖 원문 보기: r/LocalLLaMA
👀 See Also

로컬 터미널 CRM 및 Claude 통합용 내장 MCP 서버
한 개발자가 터미널에서 실행되고 로컬 SQLite 저장소를 사용하며, 클로드가 연락처, 거래 및 후속 조치를 관리하기 위한 18가지 도구에 접근할 수 있도록 내장 MCP 서버를 포함한 개인용 CRM을 구축했습니다.

Lat.md: 코드베이스를 위한 마크다운 기반 지식 그래프
Lat.md는 lat.md/ 디렉토리 내 상호 연결된 마크다운 파일을 사용하여 코드베이스에 대한 지식 그래프를 생성합니다. 단일 문서의 확장성 문제를 해결하며, [[위키 링크]]로 섹션을 연결하고, // @lat: [[section-id]]와 같은 주석으로 소스 코드에 연결하며, 검증 및 검색을 위한 CLI 도구를 제공합니다.

singularity-claude: 클로드 코드를 위한 자체 진화 기술 엔진
singularity-claude는 스킬 부패를 방지하기 위해 재귀적 진화 루프를 추가하는 오픈소스 Claude Code 플러그인입니다. 이 도구는 스킬 실행을 평가하고, 낮은 점수의 스킬을 자동 수리하며, 고성능 버전을 결정화하고, 역량 격차를 감지합니다.

마이크로소프트 DebugMCP VS Code 확장 프로그램, AI 에이전트에 디버깅 기능 부여
Microsoft DebugMCP는 Model Context Protocol(MCP)을 통해 AI 코딩 에이전트에게 전체 VS Code 디버거를 노출하는 VS Code 확장 프로그램으로, 중단점 설정, 코드 단계별 실행, 변수 검사, 표현식 평가를 가능하게 합니다.