Blackwell LLM Kit: NVFP4 Configs e Benchmarks TensorRT-LLM no RTX Pro 6000

Um novo repositório no GitHub, blackwell-llm-toolkit, reúne configurações do TensorRT-LLM, wheels pré-construídos e resultados de benchmark para execução de LLMs em GPUs Nvidia Blackwell (RTX Pro 6000, 5090, 5080, 5070 Ti). O foco está na quantização NVFP4 e na superação de obstáculos específicos da plataforma.

Principais Recursos

Configurações do TensorRT-LLM: Inclui um arquivo YAML (configs/trtllm/nemotron-omni-v3-sm120.yaml) com as flags de inicialização obscuras necessárias para executar modelos híbridos Mamba no Blackwell.
Wheels LMCache: O wheel do PyPI falhava no Blackwell devido à falta de cubins sm_120. O repositório fornece um wheel reconstruído e um script de build, testado com SSD Optane para offloading de cache KV.
Documentos de pesquisa: Análises aprofundadas geradas por IA sobre diferenças de arquitetura no Nemotron Omni V3, Qwen 3.5/3.6 e Gemma 4. Notavelmente, Qwen 3.5/3.6 não são apenas renomeações do Qwen3-VL — eles têm uma arquitetura completamente diferente.
Ferramentas de benchmark: rapid_bench.py executa uma avaliação de qualidade com 41 prompts (inteligência, uso de ferramentas, calibração, orquestração, escrita criativa). bench_harness.py mede decodificação sustentada, TTFT, preenchimento e concorrência, com um modo --prompt-tokens N para contexto longo.

Destaques de Benchmark (Única RTX Pro 6000 96GB, sem TP)

Nemotron-3-Nano-Omni V3 (multimodal, NVFP4, contexto de 8k): 270 tok/s. Modelo mais rápido testado, lida com imagem/vídeo/áudio+texto. Requer TRT-LLM v1.3.0rc13.
Nemotron-3-Nano (somente texto, NVFP4, contexto de 8k): 249 tok/s. Melhor para agentes de uso de ferramentas (10/10 em ferramentas).
DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, contexto de 65k): 31 tok/s. Melhor para raciocínio complexo (9/10 intel, 10/10 ferramentas, 13/13 calibração).
MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, contexto de 196k): 117 tok/s. Bom para conversas longas.
MiniMax-M2.7 W4A16 (com LMCache em SSD Optane, contexto de 154k): 20-22 tok/s. Qualidade W4A16 de contexto longo.
MiniMax-M2.7 W4A16 (contexto curto, sem LMCache, contexto de 64k): 22-25 tok/s. Respostas curtas de maior qualidade (10/10 intel).

Resultados completos com TTFT, velocidades de preenchimento, concorrência e pontuações de avaliação estão em bench/results.md.

Para Quem é

Desenvolvedores e pesquisadores que executam inferência de LLM em GPUs Blackwell e precisam de configurações otimizadas do TensorRT-LLM, LMCache pré-construído para offloading de contexto longo ou dados de benchmark do mundo real para seleção de modelos.

📖 Leia a fonte completa: r/LocalLLaMA

Kit de ferramentas LLM Blackwell: NVFP4 Configs, Wheels e Benchmarks para TensorRT-LLM no RTX Pro 6000

Principais Recursos

Destaques de Benchmark (Única RTX Pro 6000 96GB, sem TP)

Para Quem é

👀 See Also

Agentes Observam: Painel em Tempo Real para Monitoramento de Equipes de Agentes de Código Claude

Ferramenta PRECC Reduz Custos da API de Código Claude com Compressão Pré-Chamada de Ferramenta

cq: Um Sistema de Compartilhamento de Conhecimento Local-First para Agentes de Codificação de IA

Claude Skills: 12 Pacotes de Regras de Codificação Rigorosas para TypeScript, Rust, Swift, Go, JS, Postgres e Auditorias