Configs NVFP4 et Benchmarks TensorRT-LLM sur RTX Pro 6000

Un nouveau dépôt sur GitHub, blackwell-llm-toolkit, rassemble des configurations TensorRT-LLM, des wheels préconstruites et des résultats de benchmark pour exécuter des LLM sur les GPU Nvidia Blackwell (RTX Pro 6000, 5090, 5080, 5070 Ti). L'accent est mis sur la quantification NVFP4 et la résolution de problèmes spécifiques à la plateforme.

Fonctionnalités clés

Configurations TensorRT-LLM : Inclut un fichier YAML (configs/trtllm/nemotron-omni-v3-sm120.yaml) avec les drapeaux de lancement obscurs nécessaires pour exécuter des modèles hybrides Mamba sur Blackwell.
Wheels LMCache : La wheel PyPI plantait sur Blackwell en raison de l'absence de cubins sm_120. Le dépôt fournit une wheel reconstruite et un script de build, testés avec un SSD Optane pour le déchargement du cache KV.
Documents de recherche : Plongées approfondies générées par IA sur les différences architecturales de Nemotron Omni V3, Qwen 3.5/3.6 et Gemma 4. Notamment, Qwen 3.5/3.6 ne sont pas simplement des Qwen3-VL renommés — ils ont une architecture complètement différente.
Harness de benchmark : rapid_bench.py exécute une évaluation de qualité sur 41 prompts (intelligence, utilisation d'outils, calibration, orchestration, écriture créative). bench_harness.py mesure le décodage soutenu, le TTFT, le préremplissage et la concurrence, avec un mode --prompt-tokens N pour les longs contextes.

Points forts des benchmarks (RTX Pro 6000 96 Go seul, sans TP)

Nemotron-3-Nano-Omni V3 (multimodal, NVFP4, contexte 8k) : 270 tok/s. Modèle le plus rapide testé, gère image/vidéo/audio+texte. Nécessite TRT-LLM v1.3.0rc13.
Nemotron-3-Nano (texte uniquement, NVFP4, contexte 8k) : 249 tok/s. Meilleur pour les agents utilisant des outils (10/10 sur les outils).
DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, contexte 65k) : 31 tok/s. Meilleur pour le raisonnement complexe (9/10 en intelligence, 10/10 en outils, 13/13 en calibration).
MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, contexte 196k) : 117 tok/s. Bon pour les longues conversations.
MiniMax-M2.7 W4A16 (avec LMCache sur SSD Optane, contexte 154k) : 20-22 tok/s. Qualité à long contexte W4A16.
MiniMax-M2.7 W4A16 (contexte court, sans LMCache, contexte 64k) : 22-25 tok/s. Réponses courtes de la plus haute qualité (10/10 en intelligence).

Les résultats complets avec TTFT, vitesses de préremplissage, concurrence et scores d'évaluation sont dans bench/results.md.

À qui cela s'adresse

Développeurs et chercheurs exécutant des inférences LLM sur des GPU Blackwell qui ont besoin de configurations TensorRT-LLM optimisées, de LMCache préconstruite pour le déchargement à long contexte, ou de données de benchmark réelles pour la sélection de modèles.

📖 Lire la source complète : r/LocalLLaMA

Kit de LLM Blackwell : Configs NVFP4, Wheels et benchmarks pour TensorRT-LLM sur RTX Pro 6000

Fonctionnalités clés

Points forts des benchmarks (RTX Pro 6000 96 Go seul, sans TP)

À qui cela s'adresse

👀 See Also

Xiaozhen : Une compétence de code Claude qui creuse trois couches pour identifier les causes profondes

Acheminer le trafic de l'API Claude pour contrôler les coûts suite au changement d'abonnement Max

GitHub Comic Bot : Transformez vos commits en bandes dessinées quotidiennes de chevaliers médiévaux

AI Claw : Le pont sans serveur connecte Alexa à OpenClaw local avec livraison double.