Инструментарий Blackwell LLM: конфиги NVFP4, колёса и бенчмарки для TensorRT-LLM на RTX Pro 6000

✍️ OpenClawRadar📅 Опубликовано: 12 мая 2026 г.🔗 Source
Инструментарий Blackwell LLM: конфиги NVFP4, колёса и бенчмарки для TensorRT-LLM на RTX Pro 6000
Ad

Новый репозиторий на GitHub, blackwell-llm-toolkit, содержит конфиги TensorRT-LLM, предварительно собранные колеса и результаты бенчмарков для запуска LLM на GPU Nvidia Blackwell (RTX Pro 6000, 5090, 5080, 5070 Ti). Основное внимание уделяется квантованию NVFP4 и преодолению платформенных ограничений.

Ключевые особенности

  • Конфиги TensorRT-LLM: Включают YAML-файл (configs/trtllm/nemotron-omni-v3-sm120.yaml) с неочевидными флагами запуска, необходимыми для работы Mamba-гибридных моделей на Blackwell.
  • Колеса LMCache: Колесо с PyPI падало на Blackwell из-за отсутствия cubins sm_120. Репозиторий предоставляет пересобранное колесо и скрипт для сборки, протестированные с Optane SSD для выгрузки KV-кэша.
  • Исследовательские документы: Сгенерированные ИИ глубокие обзоры различий в архитектуре Nemotron Omni V3, Qwen 3.5/3.6 и Gemma 4. Примечательно, что Qwen 3.5/3.6 — это не просто переименованный Qwen3-VL; у них совершенно другая архитектура.
  • Инструменты для бенчмарков: rapid_bench.py запускает оценку качества из 41 запроса (интеллект, использование инструментов, калибровка, оркестрация, креативное письмо). bench_harness.py измеряет постоянный декодинг, TTFT, префилл и параллелизм, с режимом --prompt-tokens N для длинного контекста.
Ad

Основные результаты бенчмарков (один RTX Pro 6000 96 ГБ, без TP)

  • Nemotron-3-Nano-Omni V3 (мультимодальная, NVFP4, контекст 8k): 270 ток/с. Самая быстрая протестированная модель, обрабатывает изображения, видео, аудио и текст. Требует TRT-LLM v1.3.0rc13.
  • Nemotron-3-Nano (только текст, NVFP4, контекст 8k): 249 ток/с. Лучший выбор для агентов, использующих инструменты (10/10 по инструментам).
  • DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, контекст 65k): 31 ток/с. Лучший для сложных рассуждений (9/10 интеллект, 10/10 инструменты, 13/13 калибровка).
  • MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, контекст 196k): 117 ток/с. Хорош для длинных бесед.
  • MiniMax-M2.7 W4A16 (с LMCache на Optane SSD, контекст 154k): 20-22 ток/с. Качество длинного контекста W4A16.
  • MiniMax-M2.7 W4A16 (короткий контекст, без LMCache, контекст 64k): 22-25 ток/с. Самые качественные короткие ответы (10/10 интеллект).

Полные результаты с TTFT, скоростью префилла, параллелизмом и оценками качества находятся в bench/results.md.

Для кого это

Для разработчиков и исследователей, выполняющих инференс LLM на GPU Blackwell, которым нужны оптимизированные конфиги TensorRT-LLM, предварительно собранный LMCache для выгрузки длинного контекста или реальные данные бенчмарков для выбора модели.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

LORE.md: Открытый стандарт для извлечения структурированных знаний из диалогов с ИИ
Инструменты

LORE.md: Открытый стандарт для извлечения структурированных знаний из диалогов с ИИ

LORE.md — это открытый стандарт для извлечения устойчивых знаний из диалогов с ИИ в структурированном формате. Он фиксирует решения с обоснованием, инсайты, паттерны, открытые вопросы и следующие шаги, причём всё это связывается между сессиями.

OpenClawRadar
Расширение для браузера wearehere сканирует сайты на наличие отслеживания и угроз конфиденциальности.
Инструменты

Расширение для браузера wearehere сканирует сайты на наличие отслеживания и угроз конфиденциальности.

wearehere — это расширение для браузера, которое сканирует веб-сайты по десяти категориям, включая куки, трекеры, снятие цифровых отпечатков устройств и тёмные паттерны, а затем оценивает их по уровню рисков для приватности. Оно весит менее 200 КБ, работает локально в браузере, а также доступно как npm-пакет для интеграции с ИИ-агентами через сервер barebrowse MCP.

OpenClawRadar
Игровая головоломка для ботов с призами: новый вызов для ИИ-разработчиков
Инструменты

Игровая головоломка для ботов с призами: новый вызов для ИИ-разработчиков

Интригующая новая головоломка предлагает программистам ИИ раскрыть свое творчество и интеллект, разрабатывая решения для ботов, чтобы конкурировать за призы. Эта инициатива вызвала интерес в сообществе ИИ, способствуя креативности и конкуренции.

OpenClawRadar
NexQuant: Rust-нативный 3-битный движок KV-кэша для развертывания на периферийных устройствах
Инструменты

NexQuant: Rust-нативный 3-битный движок KV-кэша для развертывания на периферийных устройствах

NexQuant — это готовый к промышленному использованию движок на Rust, который позволяет запускать модели с большим контекстом на потребительском оборудовании с сокращением использования памяти в 3–5 раз. Поддерживает бэкенды Metal, CUDA, Vulkan и CPU.

OpenClawRadar