Qwen3.5-122B на Blackwell SM120: проблема повреждения кэша KV в формате fp8 и результаты производительности

✍️ OpenClawRadar📅 Опубликовано: 1 марта 2026 г.🔗 Source
Qwen3.5-122B на Blackwell SM120: проблема повреждения кэша KV в формате fp8 и результаты производительности
Ad

Ключевые результаты тестирования Qwen3.5-122B на Blackwell SM120

Детальное тестирование Qwen3.5-122B на оборудовании 8x RTX PRO 6000 Blackwell (AWS g7e.48xlarge, SM120) с использованием SGLang выявило критические проблемы конфигурации и характеристики производительности. Самый важный вывод: кэш KV fp8_e4m3 не приводит к сбоям, но молчаливо выдаёт повреждённые результаты без ошибок или предупреждений — вместо правильных ответов появляются восклицательные знаки и повторения. Единственное решение — использовать кэш KV bf16.

Требования к конфигурации

Слои DeltaNet в Qwen3.5-122B добавляют ограничения, которых нет в стандартных моделях MoE. Для настройки на оборудовании SM120 потребовалось 6 конкретных флагов бэкенда Triton:

  • Бэкенд внимания принудительно переведён на Triton (для слоёв DeltaNet)
  • Кэш KV принудительно переведён в bf16 (fp8 портит вывод)
  • Без CUDA graphs (из-за переполнения SMEM в Triton)
  • Без HiCache (несовместим с DeltaNet)

Это контрастирует с тестированием M2.5 на том же оборудовании, для которого потребовалось всего 2 флага бэкенда Triton.

Ad

Бенчмарки производительности

Все тесты использовали одинаковое оборудование и методологию с SGLang nightly (cu13 20260219), TP=8:

  • Пиковая скорость (токенов/с): 1 985 против 1 818 (Qwen3.5-122B против M2.5)
  • Онлайн 4 rps: 310 против 404
  • Онлайн 8 rps: 514 против 744
  • Скорость одиночного запроса (токенов/с): ~25 (с MTP) против 72
  • Качество Arena-Hard: 6,99/10 против 4,94/10 (оценка Claude Opus 4.6, не сравнимо с результатами лидерборда)

Результаты оптимизации

Из протестированных путей оптимизации только MTP (Multi-Token Prediction) существенно улучшил производительность, обеспечив ускорение обработки одиночного запроса в 2,75 раза (~9 до ~25 токенов/с). Другие оптимизации, доступные на оборудовании SM120 — FP8 KV cache, CUDA graphs и HiCache — были заблокированы ограничениями DeltaNet в Qwen3.5-122B.

Qwen3.5-122B выигрывает по пиковой пропускной способности и метрикам качества, в то время как M2.5 всё ещё выигрывает по всем метрикам устойчивого обслуживания благодаря возможности использовать оптимизации, которые блокирует DeltaNet в Qwen3.5-122B.

Полные результаты, матрица совместимости, точные команды для воспроизведения и все артефакты JSONL доступны в связанном ниже issue на GitHub.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Claude Code v2.1.174: Переключение ускорения прокрутки колесиком, исправления /model, поддержка GovCloud и атрибуция использования VSCode
Новости

Claude Code v2.1.174: Переключение ускорения прокрутки колесиком, исправления /model, поддержка GovCloud и атрибуция использования VSCode

Claude Code v2.1.174 добавляет настройку wheelScrollAccelerationEnabled для отключения ускорения прокрутки в полноэкранном режиме, исправляет выбор /model для строк Opus/Sonnet, устраняет ошибки 400 в Bedrock GovCloud, добавляет разбивку использования в VSCode и исправляет наследование окружения в фоновых сессиях.

OpenClawRadar
Статья Клода Шеннона 1950 года о шахматах предсказала ключевую проблему GenAI: угадывание против знания
Новости

Статья Клода Шеннона 1950 года о шахматах предсказала ключевую проблему GenAI: угадывание против знания

Статья Шеннона о шахматах 1950 года сформулировала основную проблему ИИ: принятие «сносно хороших» решений в условиях неопределенности — именно эту проблему сегодня решает генеративный ИИ, когда выдает отполированные, но неверные ответы.

OpenClawRadar
Машина состояний потока: архитектура без трансформеров сохраняет 62% точности на длинных последовательностях, в то время как трансформеры падают до 2%.
Новости

Машина состояний потока: архитектура без трансформеров сохраняет 62% точности на длинных последовательностях, в то время как трансформеры падают до 2%.

Исследователь разработал State Flow Machine (SFM) — альтернативную архитектуру, использующую явные слоты памяти вместо механизмов внимания, достигшую 62% точности на синтетической задаче отслеживания состояния программы при длине обучения в 4 раза больше, где точность трансформеров падает до 1,9–3,1%. Модель работает на одном NPU Huawei Ascend 910 ProA.

OpenClawRadar
Искусственный интеллект Claude демонстрирует ошибку повторения термина «Sketcher» в рабочем процессе QGIS.
Новости

Искусственный интеллект Claude демонстрирует ошибку повторения термина «Sketcher» в рабочем процессе QGIS.

Пользователь сообщил, что Claude AI многократно выводит слово 'sketcher' при предоставлении инструкций по QGIS для выравнивания файлов DXF, что указывает на потенциальную ошибку модели с определёнными терминами. Источник включает практические детали рабочего процесса QGIS для выравнивания систем координат.

OpenClawRadar