Blackwell LLM Toolkit: Configuraciones NVFP4, Ruedas y Benchmarks para TensorRT-LLM en RTX Pro 6000

Un nuevo repositorio en GitHub, blackwell-llm-toolkit, recopila configuraciones de TensorRT-LLM, ruedas preconstruidas y resultados de puntos de referencia para ejecutar LLM en GPU Nvidia Blackwell (RTX Pro 6000, 5090, 5080, 5070 Ti). El enfoque está en la cuantización NVFP4 y en superar obstáculos específicos de la plataforma.
Características clave
- Configuraciones de TensorRT-LLM: Incluye un archivo YAML (
configs/trtllm/nemotron-omni-v3-sm120.yaml) con las banderas de lanzamiento necesarias para ejecutar modelos híbridos Mamba en Blackwell. - Ruedas LMCache: La rueda de PyPI fallaba en Blackwell debido a la falta de cubins sm_120. El repositorio proporciona una rueda reconstruida y un script de compilación, probado con SSD Optane para la descarga de caché KV.
- Documentos de investigación: Análisis detallados generados por IA sobre las diferencias de arquitectura en Nemotron Omni V3, Qwen 3.5/3.6 y Gemma 4. En particular, Qwen 3.5/3.6 no son solo Qwen3-VL renombrados: tienen una arquitectura completamente diferente.
- Herramientas de evaluación comparativa:
rapid_bench.pyejecuta una evaluación de calidad con 41 indicaciones (inteligencia, uso de herramientas, calibración, orquestación, escritura creativa).bench_harness.pymide la decodificación sostenida, TTFT, prellenado y concurrencia, con un modo--prompt-tokens Npara contexto largo.
Aspectos destacados de los puntos de referencia (RTX Pro 6000 96GB individual, sin TP)
- Nemotron-3-Nano-Omni V3 (multimodal, NVFP4, contexto de 8k): 270 tok/s. El modelo más rápido probado, maneja imagen/video/audio+texto. Requiere TRT-LLM v1.3.0rc13.
- Nemotron-3-Nano (solo texto, NVFP4, contexto de 8k): 249 tok/s. El mejor para agentes de uso de herramientas (10/10 en herramientas).
- DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, contexto de 65k): 31 tok/s. El mejor para razonamiento complejo (9/10 inteligencia, 10/10 herramientas, 13/13 calibración).
- MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, contexto de 196k): 117 tok/s. Bueno para conversaciones largas.
- MiniMax-M2.7 W4A16 (con LMCache en SSD Optane, contexto de 154k): 20-22 tok/s. Calidad de contexto largo W4A16.
- MiniMax-M2.7 W4A16 (contexto corto, sin LMCache, contexto de 64k): 22-25 tok/s. Respuestas cortas de mayor calidad (10/10 inteligencia).
Los resultados completos con TTFT, velocidades de prellenado, concurrencia y puntuaciones de evaluación están en bench/results.md.
Para quién es
Desarrolladores e investigadores que ejecutan inferencia de LLM en GPU Blackwell y necesitan configuraciones optimizadas de TensorRT-LLM, LMCache preconstruida para descarga de contexto largo o datos de referencia del mundo real para la selección de modelos.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

La Herramienta Creadora de Habilidades para OpenClaw Ayuda a los Desarrolladores a Empaquetar Flujos de Trabajo
Un desarrollador creó una habilidad llamada skills-creator que guía a los usuarios en la creación de habilidades de calidad para OpenClaw, abordando problemas comunes como descripciones vagas e instrucciones que parecen documentación. Está disponible en ClawHub y ofrece un enfoque basado en diseño con fórmulas de descripción, listas de verificación y niveles de complejidad.

AlterSpec v1.0: Aplicación de Políticas en Tiempo de Ejecución para Agentes de IA
AlterSpec v1.0 es un motor de ejecución de cumplimiento de políticas de código abierto que se sitúa entre los agentes de IA y sus herramientas, evaluando las acciones frente a políticas definidas en YAML antes de su ejecución. Proporciona decisiones de permitir/denegar/revisar, firma criptográfica de políticas y registro de auditoría.

Pasando de las reglas de CLAUDE.md a la aplicación de infraestructura con Citadel
Un desarrollador descubrió que agregar más reglas a CLAUDE.md más allá de unas 100 líneas reducía el cumplimiento, con un 40% de redundancia en su archivo. La solución fue trasladar la aplicación de las reglas de las instrucciones a la infraestructura utilizando ganchos del ciclo de vida, habilidades y archivos de campaña, culminando en el sistema de código abierto Citadel.

ClawProxy: Proxy de Enrutamiento de IA Autohospedado con Panel de Control
ClawProxy es un proxy de código abierto y autoalojado que centraliza la gestión de múltiples claves API y modelos de IA. Proporciona un endpoint unificado, rotación inteligente de claves, respaldo de proveedores y registro en tiempo real a través de un panel de control en React.