RTX 5080 16GB: Qwen3.6 35B MoE при 128k контексте — 56 tok/s, и почему MTP не помогает

✍️ OpenClawRadar📅 Опубликовано: 20 мая 2026 г.🔗 Source
RTX 5080 16GB: Qwen3.6 35B MoE при 128k контексте — 56 tok/s, и почему MTP не помогает
Ad

Основной коммит llama.cpp b9190 добавил MTP (Multi-Token Prediction). Бенчмарки на RTX 5080 16GB с Qwen3.6 35B MoE при контексте 128k выявили четкую закономерность: MTP снижает производительность, когда модель не полностью помещается в GPU.

Лучшая конфигурация (без MTP)

Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536 при контексте 131k дает:

  • 56 ток/с генерации
  • 1,584 ток/с обработки промпта при контексте 128k

Флаги MTP не нужны.

Почему MTP замедляет 35B MoE на 16GB

Три конфигурации протестированы на длинах контекста, типичных для агентов кодинга:

  • 27B IQ3+MTP: 12.45 GB, полностью на GPU — в среднем 73 ток/с (MTP помогает)
  • 35B Q4_K_XL+MTP: ~22 GB, частичная выгрузка — в среднем 74 ток/с (MTP вредит)
  • 35B Q8_0+MTP: ~36 GB, сильная выгрузка — в среднем 46 ток/с

Без MTP модель 35B Q4_K_XL достигает 97 ток/с при --fit-target 0 (15,815 MiB VRAM) и 86 ток/с при --fit-target 1536 (14,269 MiB). С включенным MTP при --fit-target 1536 скорость падает до 74 ток/с (14,623 MiB) — замедление на 23%.

Основная причина: вычислительный буфер MTP резервирует ~1.5 GB (--fit-target 1536), вытесняя примерно 3 дополнительных экспертных слоя MoE из GPU в CPU. Поскольку инференс MoE упирается в CPU-ограниченные экспертные слои, 79% вероятность принятия токена MTP не компенсирует более медленный шаг.

Для модели 27B (полностью помещается в GPU) --fit-target 0 работает с MTP и без него, поэтому штрафа за VRAM нет — MTP увеличивает скорость с ~56 до 73 ток/с.

Ad

Практическое правило

MTP помогает, когда модель помещается в GPU. Он вредит, когда вычислительный буфер MTP вытесняет больше слоев в CPU. На картах с 16GB и моделью 35B MoE отключайте MTP.

Полная тестовая система: RTX 5080 16GB, Ryzen 9 9950X, 128GB RAM, llama.cpp b9204 (основная ветка). Типичные флаги MTP: -np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2.

📖 Читать первоисточник: r/LocalLLaMA

Ad

👀 Смотрите также

Тест Apple Silicon: Производительность Qwen3-VL на M3, M4 и M5 Max для классификации Vision LLM
Новости

Тест Apple Silicon: Производительность Qwen3-VL на M3, M4 и M5 Max для классификации Vision LLM

Результаты тестирования показывают производительность визуальной LLM Qwen3-VL в задачах классификации на Apple Silicon: модели M3 Max и M4 Studio демонстрируют практически идентичные результаты для 8B моделей, в то время как M5 Max работает на 75-83% быстрее. Пропускная способность памяти важнее для генерации токенов, чем для предварительного заполнения в визуальных задачах.

OpenClawRadar
Исполнительный директор Microsoft предполагает, что ИИ-агенты могут потребовать лицензий на ПО как «возможности для размещения».
Новости

Исполнительный директор Microsoft предполагает, что ИИ-агенты могут потребовать лицензий на ПО как «возможности для размещения».

Исполнительный директор Microsoft Раджеш Джа предполагает, что ИИ-агентам могут потребоваться собственные лицензии на программное обеспечение, причём каждый агент будет считаться «рабочим местом» в корпоративных системах. Это противоречит мнению о том, что ИИ сократит количество лицензий, заменяя пользователей-людей.

OpenClawRadar
Anthropic приобретает Stainless за $300M+ — теперь владеет доминирующим генератором MCP-серверов
Новости

Anthropic приобретает Stainless за $300M+ — теперь владеет доминирующим генератором MCP-серверов

Anthropic купила компанию Stainless, создающую SDK, за более чем $300 млн. Stainless генерирует большинство производственных MCP-серверов из спецификаций OpenAPI. Хостинговый продукт сворачивается; новые регистрации прекращены в понедельник.

OpenClawRadar
Полный системный промпт Claude Opus 4.6 слит на GitHub
Новости

Полный системный промпт Claude Opus 4.6 слит на GitHub

Полный системный промпт для Claude Opus 4.6 опубликован на GitHub, раскрывая внутренние инструкции Anthropic.

OpenClaw Radar