RTX 5080 16GB: Qwen3.6 35B MoE при 128k контексте — 56 tok/s, и почему MTP не помогает

Основной коммит llama.cpp b9190 добавил MTP (Multi-Token Prediction). Бенчмарки на RTX 5080 16GB с Qwen3.6 35B MoE при контексте 128k выявили четкую закономерность: MTP снижает производительность, когда модель не полностью помещается в GPU.
Лучшая конфигурация (без MTP)
Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536 при контексте 131k дает:
- 56 ток/с генерации
- 1,584 ток/с обработки промпта при контексте 128k
Флаги MTP не нужны.
Почему MTP замедляет 35B MoE на 16GB
Три конфигурации протестированы на длинах контекста, типичных для агентов кодинга:
- 27B IQ3+MTP: 12.45 GB, полностью на GPU — в среднем 73 ток/с (MTP помогает)
- 35B Q4_K_XL+MTP: ~22 GB, частичная выгрузка — в среднем 74 ток/с (MTP вредит)
- 35B Q8_0+MTP: ~36 GB, сильная выгрузка — в среднем 46 ток/с
Без MTP модель 35B Q4_K_XL достигает 97 ток/с при --fit-target 0 (15,815 MiB VRAM) и 86 ток/с при --fit-target 1536 (14,269 MiB). С включенным MTP при --fit-target 1536 скорость падает до 74 ток/с (14,623 MiB) — замедление на 23%.
Основная причина: вычислительный буфер MTP резервирует ~1.5 GB (--fit-target 1536), вытесняя примерно 3 дополнительных экспертных слоя MoE из GPU в CPU. Поскольку инференс MoE упирается в CPU-ограниченные экспертные слои, 79% вероятность принятия токена MTP не компенсирует более медленный шаг.
Для модели 27B (полностью помещается в GPU) --fit-target 0 работает с MTP и без него, поэтому штрафа за VRAM нет — MTP увеличивает скорость с ~56 до 73 ток/с.
Практическое правило
MTP помогает, когда модель помещается в GPU. Он вредит, когда вычислительный буфер MTP вытесняет больше слоев в CPU. На картах с 16GB и моделью 35B MoE отключайте MTP.
Полная тестовая система: RTX 5080 16GB, Ryzen 9 9950X, 128GB RAM, llama.cpp b9204 (основная ветка). Типичные флаги MTP: -np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2.
📖 Читать первоисточник: r/LocalLLaMA
👀 Смотрите также

Тест Apple Silicon: Производительность Qwen3-VL на M3, M4 и M5 Max для классификации Vision LLM
Результаты тестирования показывают производительность визуальной LLM Qwen3-VL в задачах классификации на Apple Silicon: модели M3 Max и M4 Studio демонстрируют практически идентичные результаты для 8B моделей, в то время как M5 Max работает на 75-83% быстрее. Пропускная способность памяти важнее для генерации токенов, чем для предварительного заполнения в визуальных задачах.

Исполнительный директор Microsoft предполагает, что ИИ-агенты могут потребовать лицензий на ПО как «возможности для размещения».
Исполнительный директор Microsoft Раджеш Джа предполагает, что ИИ-агентам могут потребоваться собственные лицензии на программное обеспечение, причём каждый агент будет считаться «рабочим местом» в корпоративных системах. Это противоречит мнению о том, что ИИ сократит количество лицензий, заменяя пользователей-людей.

Anthropic приобретает Stainless за $300M+ — теперь владеет доминирующим генератором MCP-серверов
Anthropic купила компанию Stainless, создающую SDK, за более чем $300 млн. Stainless генерирует большинство производственных MCP-серверов из спецификаций OpenAPI. Хостинговый продукт сворачивается; новые регистрации прекращены в понедельник.

Полный системный промпт Claude Opus 4.6 слит на GitHub
Полный системный промпт для Claude Opus 4.6 опубликован на GitHub, раскрывая внутренние инструкции Anthropic.