Инструментарий Blackwell LLM: конфиги NVFP4, колёса и бенчмарки для TensorRT-LLM на RTX Pro 6000

Новый репозиторий на GitHub, blackwell-llm-toolkit, содержит конфиги TensorRT-LLM, предварительно собранные колеса и результаты бенчмарков для запуска LLM на GPU Nvidia Blackwell (RTX Pro 6000, 5090, 5080, 5070 Ti). Основное внимание уделяется квантованию NVFP4 и преодолению платформенных ограничений.
Ключевые особенности
- Конфиги TensorRT-LLM: Включают YAML-файл (
configs/trtllm/nemotron-omni-v3-sm120.yaml) с неочевидными флагами запуска, необходимыми для работы Mamba-гибридных моделей на Blackwell. - Колеса LMCache: Колесо с PyPI падало на Blackwell из-за отсутствия cubins sm_120. Репозиторий предоставляет пересобранное колесо и скрипт для сборки, протестированные с Optane SSD для выгрузки KV-кэша.
- Исследовательские документы: Сгенерированные ИИ глубокие обзоры различий в архитектуре Nemotron Omni V3, Qwen 3.5/3.6 и Gemma 4. Примечательно, что Qwen 3.5/3.6 — это не просто переименованный Qwen3-VL; у них совершенно другая архитектура.
- Инструменты для бенчмарков:
rapid_bench.pyзапускает оценку качества из 41 запроса (интеллект, использование инструментов, калибровка, оркестрация, креативное письмо).bench_harness.pyизмеряет постоянный декодинг, TTFT, префилл и параллелизм, с режимом--prompt-tokens Nдля длинного контекста.
Основные результаты бенчмарков (один RTX Pro 6000 96 ГБ, без TP)
- Nemotron-3-Nano-Omni V3 (мультимодальная, NVFP4, контекст 8k): 270 ток/с. Самая быстрая протестированная модель, обрабатывает изображения, видео, аудио и текст. Требует TRT-LLM v1.3.0rc13.
- Nemotron-3-Nano (только текст, NVFP4, контекст 8k): 249 ток/с. Лучший выбор для агентов, использующих инструменты (10/10 по инструментам).
- DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, контекст 65k): 31 ток/с. Лучший для сложных рассуждений (9/10 интеллект, 10/10 инструменты, 13/13 калибровка).
- MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, контекст 196k): 117 ток/с. Хорош для длинных бесед.
- MiniMax-M2.7 W4A16 (с LMCache на Optane SSD, контекст 154k): 20-22 ток/с. Качество длинного контекста W4A16.
- MiniMax-M2.7 W4A16 (короткий контекст, без LMCache, контекст 64k): 22-25 ток/с. Самые качественные короткие ответы (10/10 интеллект).
Полные результаты с TTFT, скоростью префилла, параллелизмом и оценками качества находятся в bench/results.md.
Для кого это
Для разработчиков и исследователей, выполняющих инференс LLM на GPU Blackwell, которым нужны оптимизированные конфиги TensorRT-LLM, предварительно собранный LMCache для выгрузки длинного контекста или реальные данные бенчмарков для выбора модели.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

LORE.md: Открытый стандарт для извлечения структурированных знаний из диалогов с ИИ
LORE.md — это открытый стандарт для извлечения устойчивых знаний из диалогов с ИИ в структурированном формате. Он фиксирует решения с обоснованием, инсайты, паттерны, открытые вопросы и следующие шаги, причём всё это связывается между сессиями.

Расширение для браузера wearehere сканирует сайты на наличие отслеживания и угроз конфиденциальности.
wearehere — это расширение для браузера, которое сканирует веб-сайты по десяти категориям, включая куки, трекеры, снятие цифровых отпечатков устройств и тёмные паттерны, а затем оценивает их по уровню рисков для приватности. Оно весит менее 200 КБ, работает локально в браузере, а также доступно как npm-пакет для интеграции с ИИ-агентами через сервер barebrowse MCP.

Игровая головоломка для ботов с призами: новый вызов для ИИ-разработчиков
Интригующая новая головоломка предлагает программистам ИИ раскрыть свое творчество и интеллект, разрабатывая решения для ботов, чтобы конкурировать за призы. Эта инициатива вызвала интерес в сообществе ИИ, способствуя креативности и конкуренции.

NexQuant: Rust-нативный 3-битный движок KV-кэша для развертывания на периферийных устройствах
NexQuant — это готовый к промышленному использованию движок на Rust, который позволяет запускать модели с большим контекстом на потребительском оборудовании с сокращением использования памяти в 3–5 раз. Поддерживает бэкенды Metal, CUDA, Vulkan и CPU.