Kit de LLM Blackwell : Configs NVFP4, Wheels et benchmarks pour TensorRT-LLM sur RTX Pro 6000

Un nouveau dépôt sur GitHub, blackwell-llm-toolkit, rassemble des configurations TensorRT-LLM, des wheels préconstruites et des résultats de benchmark pour exécuter des LLM sur les GPU Nvidia Blackwell (RTX Pro 6000, 5090, 5080, 5070 Ti). L'accent est mis sur la quantification NVFP4 et la résolution de problèmes spécifiques à la plateforme.
Fonctionnalités clés
- Configurations TensorRT-LLM : Inclut un fichier YAML (
configs/trtllm/nemotron-omni-v3-sm120.yaml) avec les drapeaux de lancement obscurs nécessaires pour exécuter des modèles hybrides Mamba sur Blackwell. - Wheels LMCache : La wheel PyPI plantait sur Blackwell en raison de l'absence de cubins sm_120. Le dépôt fournit une wheel reconstruite et un script de build, testés avec un SSD Optane pour le déchargement du cache KV.
- Documents de recherche : Plongées approfondies générées par IA sur les différences architecturales de Nemotron Omni V3, Qwen 3.5/3.6 et Gemma 4. Notamment, Qwen 3.5/3.6 ne sont pas simplement des Qwen3-VL renommés — ils ont une architecture complètement différente.
- Harness de benchmark :
rapid_bench.pyexécute une évaluation de qualité sur 41 prompts (intelligence, utilisation d'outils, calibration, orchestration, écriture créative).bench_harness.pymesure le décodage soutenu, le TTFT, le préremplissage et la concurrence, avec un mode--prompt-tokens Npour les longs contextes.
Points forts des benchmarks (RTX Pro 6000 96 Go seul, sans TP)
- Nemotron-3-Nano-Omni V3 (multimodal, NVFP4, contexte 8k) : 270 tok/s. Modèle le plus rapide testé, gère image/vidéo/audio+texte. Nécessite TRT-LLM v1.3.0rc13.
- Nemotron-3-Nano (texte uniquement, NVFP4, contexte 8k) : 249 tok/s. Meilleur pour les agents utilisant des outils (10/10 sur les outils).
- DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, contexte 65k) : 31 tok/s. Meilleur pour le raisonnement complexe (9/10 en intelligence, 10/10 en outils, 13/13 en calibration).
- MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, contexte 196k) : 117 tok/s. Bon pour les longues conversations.
- MiniMax-M2.7 W4A16 (avec LMCache sur SSD Optane, contexte 154k) : 20-22 tok/s. Qualité à long contexte W4A16.
- MiniMax-M2.7 W4A16 (contexte court, sans LMCache, contexte 64k) : 22-25 tok/s. Réponses courtes de la plus haute qualité (10/10 en intelligence).
Les résultats complets avec TTFT, vitesses de préremplissage, concurrence et scores d'évaluation sont dans bench/results.md.
À qui cela s'adresse
Développeurs et chercheurs exécutant des inférences LLM sur des GPU Blackwell qui ont besoin de configurations TensorRT-LLM optimisées, de LMCache préconstruite pour le déchargement à long contexte, ou de données de benchmark réelles pour la sélection de modèles.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Cognithor v0.40.0 ajoute une identité persistante aux agents IA avec des contraintes éthiques.
Cognithor v0.40.0 introduit le Protocole d'Esprit Immortel, offrant aux agents d'IA locaux une identité persistante entre les sessions avec 7 ancres éthiques intégrées et des cycles de rêve pour la consolidation de la mémoire. La mise à jour ajoute 9 488 lignes de code et fonctionne à 100 % localement.

Formateur de messages Slack : Corriger le Markdown cassé de Claude dans Slack
Un développeur a créé une compétence qui convertit le Markdown généré par Claude en un formatage Slack approprié, résolvant les problèmes où le texte en gras s'affiche avec des astérisques, les liens apparaissent bruts et les tableaux se cassent. L'outil propose à la fois un aperçu navigateur avec copier-coller HTML enrichi et une prise en charge de webhook API.

Utilisateur de Reddit Partage un Outil d'IA pour Collecter les Soldes de Comptes Financiers
Un post Reddit sur r/openclaw présente un agent d'IA conçu pour rationaliser la collecte des soldes de comptes financiers en utilisant Python. Les utilisateurs discutent du potentiel d'automatisation via des scripts personnalisés exploitant des API comme Plaid.

Machine Virtuelle Logique : Un Système Basé sur des Invites pour Stopper les Effondrements de Raisonnement des LLM
Un chercheur a développé un prompt de Machine Virtuelle Logique (LVM) qui force les LLM à s'arrêter et à signaler des modes d'effondrement spécifiques lorsqu'ils rencontrent des paradoxes ou des dérives de raisonnement, basé sur une seule loi de stabilité : K(σ) ⇒ K(β(σ)). Le prompt est indépendant du substrat et fonctionne sur des modèles comme Grok et Claude.