Kit de ferramentas LLM Blackwell: NVFP4 Configs, Wheels e Benchmarks para TensorRT-LLM no RTX Pro 6000

✍️ OpenClawRadar📅 Publicado: May 12, 2026🔗 Source
Kit de ferramentas LLM Blackwell: NVFP4 Configs, Wheels e Benchmarks para TensorRT-LLM no RTX Pro 6000
Ad

Um novo repositório no GitHub, blackwell-llm-toolkit, reúne configurações do TensorRT-LLM, wheels pré-construídos e resultados de benchmark para execução de LLMs em GPUs Nvidia Blackwell (RTX Pro 6000, 5090, 5080, 5070 Ti). O foco está na quantização NVFP4 e na superação de obstáculos específicos da plataforma.

Principais Recursos

  • Configurações do TensorRT-LLM: Inclui um arquivo YAML (configs/trtllm/nemotron-omni-v3-sm120.yaml) com as flags de inicialização obscuras necessárias para executar modelos híbridos Mamba no Blackwell.
  • Wheels LMCache: O wheel do PyPI falhava no Blackwell devido à falta de cubins sm_120. O repositório fornece um wheel reconstruído e um script de build, testado com SSD Optane para offloading de cache KV.
  • Documentos de pesquisa: Análises aprofundadas geradas por IA sobre diferenças de arquitetura no Nemotron Omni V3, Qwen 3.5/3.6 e Gemma 4. Notavelmente, Qwen 3.5/3.6 não são apenas renomeações do Qwen3-VL — eles têm uma arquitetura completamente diferente.
  • Ferramentas de benchmark: rapid_bench.py executa uma avaliação de qualidade com 41 prompts (inteligência, uso de ferramentas, calibração, orquestração, escrita criativa). bench_harness.py mede decodificação sustentada, TTFT, preenchimento e concorrência, com um modo --prompt-tokens N para contexto longo.
Ad

Destaques de Benchmark (Única RTX Pro 6000 96GB, sem TP)

  • Nemotron-3-Nano-Omni V3 (multimodal, NVFP4, contexto de 8k): 270 tok/s. Modelo mais rápido testado, lida com imagem/vídeo/áudio+texto. Requer TRT-LLM v1.3.0rc13.
  • Nemotron-3-Nano (somente texto, NVFP4, contexto de 8k): 249 tok/s. Melhor para agentes de uso de ferramentas (10/10 em ferramentas).
  • DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, contexto de 65k): 31 tok/s. Melhor para raciocínio complexo (9/10 intel, 10/10 ferramentas, 13/13 calibração).
  • MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, contexto de 196k): 117 tok/s. Bom para conversas longas.
  • MiniMax-M2.7 W4A16 (com LMCache em SSD Optane, contexto de 154k): 20-22 tok/s. Qualidade W4A16 de contexto longo.
  • MiniMax-M2.7 W4A16 (contexto curto, sem LMCache, contexto de 64k): 22-25 tok/s. Respostas curtas de maior qualidade (10/10 intel).

Resultados completos com TTFT, velocidades de preenchimento, concorrência e pontuações de avaliação estão em bench/results.md.

Para Quem é

Desenvolvedores e pesquisadores que executam inferência de LLM em GPUs Blackwell e precisam de configurações otimizadas do TensorRT-LLM, LMCache pré-construído para offloading de contexto longo ou dados de benchmark do mundo real para seleção de modelos.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Repositório de Modelo de Código Claude para Aplicações Spring Boot
Tools

Repositório de Modelo de Código Claude para Aplicações Spring Boot

Um repositório do GitHub fornece um modelo Claude Code para gerar aplicações Spring Boot com melhores práticas para integração de banco de dados, implantação no Kubernetes e testes de integração usando Testcontainers.

OpenClawRadar
Skales: Agente de IA para Desktop com Suporte a Ollama, 300MB de RAM em Inatividade
Tools

Skales: Agente de IA para Desktop com Suporte a Ollama, 300MB de RAM em Inatividade

Skales é um aplicativo de desktop nativo em Electron que fornece um agente de IA autônomo com instaladores .exe/.dmg, funciona com Ollama para inferência local ou provedores em nuvem, e usa cerca de 300MB de RAM em idle com dados armazenados localmente em ~/.skales-data.

OpenClawRadar
Arquitetura de Validação Fria: Sistema de Revisão de Código com Agente Duplo em Código Aberto
Tools

Arquitetura de Validação Fria: Sistema de Revisão de Código com Agente Duplo em Código Aberto

Sistema de código aberto utiliza dois agentes de IA separados para validação de código: um constrói o código, outro o revisa sem nenhum contexto sobre o raciocínio do construtor. O revisor vê apenas documentos de planejamento, diferenças de código e saídas de teste.

OpenClawRadar
🦀
Tools

Cocall.ai MCP: Chamadas Telefônicas de Saída com Encaminhamento para Humano em Tempo Real

Cocall.ai é um MCP para Claude que permite fazer chamadas telefônicas de saída com um modelo de fala para fala full-duplex. Ele pode pausar uma chamada no meio para fazer uma pergunta específica em vez de adivinhar, navegar por menus IVR e transferir chamadas para você quando necessário.

OpenClawRadar