Blackwell LLM: NVFP4, TensorRT-LLM и бенчмарки на RTX Pro 6000

Новый репозиторий на GitHub, blackwell-llm-toolkit, содержит конфиги TensorRT-LLM, предварительно собранные колеса и результаты бенчмарков для запуска LLM на GPU Nvidia Blackwell (RTX Pro 6000, 5090, 5080, 5070 Ti). Основное внимание уделяется квантованию NVFP4 и преодолению платформенных ограничений.

Ключевые особенности

Конфиги TensorRT-LLM: Включают YAML-файл (configs/trtllm/nemotron-omni-v3-sm120.yaml) с неочевидными флагами запуска, необходимыми для работы Mamba-гибридных моделей на Blackwell.
Колеса LMCache: Колесо с PyPI падало на Blackwell из-за отсутствия cubins sm_120. Репозиторий предоставляет пересобранное колесо и скрипт для сборки, протестированные с Optane SSD для выгрузки KV-кэша.
Исследовательские документы: Сгенерированные ИИ глубокие обзоры различий в архитектуре Nemotron Omni V3, Qwen 3.5/3.6 и Gemma 4. Примечательно, что Qwen 3.5/3.6 — это не просто переименованный Qwen3-VL; у них совершенно другая архитектура.
Инструменты для бенчмарков: rapid_bench.py запускает оценку качества из 41 запроса (интеллект, использование инструментов, калибровка, оркестрация, креативное письмо). bench_harness.py измеряет постоянный декодинг, TTFT, префилл и параллелизм, с режимом --prompt-tokens N для длинного контекста.

Основные результаты бенчмарков (один RTX Pro 6000 96 ГБ, без TP)

Nemotron-3-Nano-Omni V3 (мультимодальная, NVFP4, контекст 8k): 270 ток/с. Самая быстрая протестированная модель, обрабатывает изображения, видео, аудио и текст. Требует TRT-LLM v1.3.0rc13.
Nemotron-3-Nano (только текст, NVFP4, контекст 8k): 249 ток/с. Лучший выбор для агентов, использующих инструменты (10/10 по инструментам).
DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, контекст 65k): 31 ток/с. Лучший для сложных рассуждений (9/10 интеллект, 10/10 инструменты, 13/13 калибровка).
MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, контекст 196k): 117 ток/с. Хорош для длинных бесед.
MiniMax-M2.7 W4A16 (с LMCache на Optane SSD, контекст 154k): 20-22 ток/с. Качество длинного контекста W4A16.
MiniMax-M2.7 W4A16 (короткий контекст, без LMCache, контекст 64k): 22-25 ток/с. Самые качественные короткие ответы (10/10 интеллект).

Полные результаты с TTFT, скоростью префилла, параллелизмом и оценками качества находятся в bench/results.md.

Для кого это

Для разработчиков и исследователей, выполняющих инференс LLM на GPU Blackwell, которым нужны оптимизированные конфиги TensorRT-LLM, предварительно собранный LMCache для выгрузки длинного контекста или реальные данные бенчмарков для выбора модели.

📖 Читать полный источник: r/LocalLLaMA

Инструментарий Blackwell LLM: конфиги NVFP4, колёса и бенчмарки для TensorRT-LLM на RTX Pro 6000

Ключевые особенности

Основные результаты бенчмарков (один RTX Pro 6000 96 ГБ, без TP)

Для кого это

👀 Смотрите также

Осваивание режимов подписки Antropic: Хайку, Сонет и Опус

Тестирование ИИ-агентов с реальными API с помощью d3 Labs

Atlarix v5.1 добавляет облачные уровни, сохраняя поддержку локального ИИ-кодирования.

Разблокировка проактивности: Детальное исследование инноваций Clawbot от сообщества