Kit de ferramentas LLM Blackwell: NVFP4 Configs, Wheels e Benchmarks para TensorRT-LLM no RTX Pro 6000

Um novo repositório no GitHub, blackwell-llm-toolkit, reúne configurações do TensorRT-LLM, wheels pré-construídos e resultados de benchmark para execução de LLMs em GPUs Nvidia Blackwell (RTX Pro 6000, 5090, 5080, 5070 Ti). O foco está na quantização NVFP4 e na superação de obstáculos específicos da plataforma.
Principais Recursos
- Configurações do TensorRT-LLM: Inclui um arquivo YAML (
configs/trtllm/nemotron-omni-v3-sm120.yaml) com as flags de inicialização obscuras necessárias para executar modelos híbridos Mamba no Blackwell. - Wheels LMCache: O wheel do PyPI falhava no Blackwell devido à falta de cubins sm_120. O repositório fornece um wheel reconstruído e um script de build, testado com SSD Optane para offloading de cache KV.
- Documentos de pesquisa: Análises aprofundadas geradas por IA sobre diferenças de arquitetura no Nemotron Omni V3, Qwen 3.5/3.6 e Gemma 4. Notavelmente, Qwen 3.5/3.6 não são apenas renomeações do Qwen3-VL — eles têm uma arquitetura completamente diferente.
- Ferramentas de benchmark:
rapid_bench.pyexecuta uma avaliação de qualidade com 41 prompts (inteligência, uso de ferramentas, calibração, orquestração, escrita criativa).bench_harness.pymede decodificação sustentada, TTFT, preenchimento e concorrência, com um modo--prompt-tokens Npara contexto longo.
Destaques de Benchmark (Única RTX Pro 6000 96GB, sem TP)
- Nemotron-3-Nano-Omni V3 (multimodal, NVFP4, contexto de 8k): 270 tok/s. Modelo mais rápido testado, lida com imagem/vídeo/áudio+texto. Requer TRT-LLM v1.3.0rc13.
- Nemotron-3-Nano (somente texto, NVFP4, contexto de 8k): 249 tok/s. Melhor para agentes de uso de ferramentas (10/10 em ferramentas).
- DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, contexto de 65k): 31 tok/s. Melhor para raciocínio complexo (9/10 intel, 10/10 ferramentas, 13/13 calibração).
- MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, contexto de 196k): 117 tok/s. Bom para conversas longas.
- MiniMax-M2.7 W4A16 (com LMCache em SSD Optane, contexto de 154k): 20-22 tok/s. Qualidade W4A16 de contexto longo.
- MiniMax-M2.7 W4A16 (contexto curto, sem LMCache, contexto de 64k): 22-25 tok/s. Respostas curtas de maior qualidade (10/10 intel).
Resultados completos com TTFT, velocidades de preenchimento, concorrência e pontuações de avaliação estão em bench/results.md.
Para Quem é
Desenvolvedores e pesquisadores que executam inferência de LLM em GPUs Blackwell e precisam de configurações otimizadas do TensorRT-LLM, LMCache pré-construído para offloading de contexto longo ou dados de benchmark do mundo real para seleção de modelos.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Repositório de Modelo de Código Claude para Aplicações Spring Boot
Um repositório do GitHub fornece um modelo Claude Code para gerar aplicações Spring Boot com melhores práticas para integração de banco de dados, implantação no Kubernetes e testes de integração usando Testcontainers.

Skales: Agente de IA para Desktop com Suporte a Ollama, 300MB de RAM em Inatividade
Skales é um aplicativo de desktop nativo em Electron que fornece um agente de IA autônomo com instaladores .exe/.dmg, funciona com Ollama para inferência local ou provedores em nuvem, e usa cerca de 300MB de RAM em idle com dados armazenados localmente em ~/.skales-data.

Arquitetura de Validação Fria: Sistema de Revisão de Código com Agente Duplo em Código Aberto
Sistema de código aberto utiliza dois agentes de IA separados para validação de código: um constrói o código, outro o revisa sem nenhum contexto sobre o raciocínio do construtor. O revisor vê apenas documentos de planejamento, diferenças de código e saídas de teste.
Cocall.ai MCP: Chamadas Telefônicas de Saída com Encaminhamento para Humano em Tempo Real
Cocall.ai é um MCP para Claude que permite fazer chamadas telefônicas de saída com um modelo de fala para fala full-duplex. Ele pode pausar uma chamada no meio para fazer uma pergunta específica em vez de adivinhar, navegar por menus IVR e transferir chamadas para você quando necessário.