Blackwell LLM Toolkit: NVFP4, TensorRT-LLM Benchmarks en RTX Pro 6000

Un nuevo repositorio en GitHub, blackwell-llm-toolkit, recopila configuraciones de TensorRT-LLM, ruedas preconstruidas y resultados de puntos de referencia para ejecutar LLM en GPU Nvidia Blackwell (RTX Pro 6000, 5090, 5080, 5070 Ti). El enfoque está en la cuantización NVFP4 y en superar obstáculos específicos de la plataforma.

Características clave

Configuraciones de TensorRT-LLM: Incluye un archivo YAML (configs/trtllm/nemotron-omni-v3-sm120.yaml) con las banderas de lanzamiento necesarias para ejecutar modelos híbridos Mamba en Blackwell.
Ruedas LMCache: La rueda de PyPI fallaba en Blackwell debido a la falta de cubins sm_120. El repositorio proporciona una rueda reconstruida y un script de compilación, probado con SSD Optane para la descarga de caché KV.
Documentos de investigación: Análisis detallados generados por IA sobre las diferencias de arquitectura en Nemotron Omni V3, Qwen 3.5/3.6 y Gemma 4. En particular, Qwen 3.5/3.6 no son solo Qwen3-VL renombrados: tienen una arquitectura completamente diferente.
Herramientas de evaluación comparativa: rapid_bench.py ejecuta una evaluación de calidad con 41 indicaciones (inteligencia, uso de herramientas, calibración, orquestación, escritura creativa). bench_harness.py mide la decodificación sostenida, TTFT, prellenado y concurrencia, con un modo --prompt-tokens N para contexto largo.

Aspectos destacados de los puntos de referencia (RTX Pro 6000 96GB individual, sin TP)

Nemotron-3-Nano-Omni V3 (multimodal, NVFP4, contexto de 8k): 270 tok/s. El modelo más rápido probado, maneja imagen/video/audio+texto. Requiere TRT-LLM v1.3.0rc13.
Nemotron-3-Nano (solo texto, NVFP4, contexto de 8k): 249 tok/s. El mejor para agentes de uso de herramientas (10/10 en herramientas).
DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, contexto de 65k): 31 tok/s. El mejor para razonamiento complejo (9/10 inteligencia, 10/10 herramientas, 13/13 calibración).
MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, contexto de 196k): 117 tok/s. Bueno para conversaciones largas.
MiniMax-M2.7 W4A16 (con LMCache en SSD Optane, contexto de 154k): 20-22 tok/s. Calidad de contexto largo W4A16.
MiniMax-M2.7 W4A16 (contexto corto, sin LMCache, contexto de 64k): 22-25 tok/s. Respuestas cortas de mayor calidad (10/10 inteligencia).

Los resultados completos con TTFT, velocidades de prellenado, concurrencia y puntuaciones de evaluación están en bench/results.md.

Para quién es

Desarrolladores e investigadores que ejecutan inferencia de LLM en GPU Blackwell y necesitan configuraciones optimizadas de TensorRT-LLM, LMCache preconstruida para descarga de contexto largo o datos de referencia del mundo real para la selección de modelos.

📖 Read the full source: r/LocalLLaMA

Blackwell LLM Toolkit: Configuraciones NVFP4, Ruedas y Benchmarks para TensorRT-LLM en RTX Pro 6000

Características clave

Aspectos destacados de los puntos de referencia (RTX Pro 6000 96GB individual, sin TP)

Para quién es

👀 Ver también

mencionado.to vs herramientas de monitoreo más amplias: una comparación de flujo de trabajo centrado en Reddit

TideSurf: herramienta de compresión DOM reduce el uso de tokens de agentes web 30 veces, acelera TTFT 12 veces

Claude Code Session Dashboard: Herramienta de Código Abierto para Monitorear Múltiples Sesiones

Pérdida de datos de la sesión de Claude Code: Script de respaldo para Windows y Mac