Qwen3.6 35B MoE на RTX 5080: 56 ток/с при 128k, MTP вредит

Основной коммит llama.cpp b9190 добавил MTP (Multi-Token Prediction). Бенчмарки на RTX 5080 16GB с Qwen3.6 35B MoE при контексте 128k выявили четкую закономерность: MTP снижает производительность, когда модель не полностью помещается в GPU.

Лучшая конфигурация (без MTP)

Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536 при контексте 131k дает:

56 ток/с генерации
1,584 ток/с обработки промпта при контексте 128k

Флаги MTP не нужны.

Почему MTP замедляет 35B MoE на 16GB

Три конфигурации протестированы на длинах контекста, типичных для агентов кодинга:

27B IQ3+MTP: 12.45 GB, полностью на GPU — в среднем 73 ток/с (MTP помогает)
35B Q4_K_XL+MTP: ~22 GB, частичная выгрузка — в среднем 74 ток/с (MTP вредит)
35B Q8_0+MTP: ~36 GB, сильная выгрузка — в среднем 46 ток/с

Без MTP модель 35B Q4_K_XL достигает 97 ток/с при --fit-target 0 (15,815 MiB VRAM) и 86 ток/с при --fit-target 1536 (14,269 MiB). С включенным MTP при --fit-target 1536 скорость падает до 74 ток/с (14,623 MiB) — замедление на 23%.

Основная причина: вычислительный буфер MTP резервирует ~1.5 GB (--fit-target 1536), вытесняя примерно 3 дополнительных экспертных слоя MoE из GPU в CPU. Поскольку инференс MoE упирается в CPU-ограниченные экспертные слои, 79% вероятность принятия токена MTP не компенсирует более медленный шаг.

Для модели 27B (полностью помещается в GPU) --fit-target 0 работает с MTP и без него, поэтому штрафа за VRAM нет — MTP увеличивает скорость с ~56 до 73 ток/с.

Практическое правило

MTP помогает, когда модель помещается в GPU. Он вредит, когда вычислительный буфер MTP вытесняет больше слоев в CPU. На картах с 16GB и моделью 35B MoE отключайте MTP.

Полная тестовая система: RTX 5080 16GB, Ryzen 9 9950X, 128GB RAM, llama.cpp b9204 (основная ветка). Типичные флаги MTP: -np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2.

📖 Читать первоисточник: r/LocalLLaMA

RTX 5080 16GB: Qwen3.6 35B MoE при 128k контексте — 56 tok/s, и почему MTP не помогает

Лучшая конфигурация (без MTP)

Почему MTP замедляет 35B MoE на 16GB

Практическое правило

👀 Смотрите также

ИИ не удалил вашу базу данных — это сделали вы: ответственность в эпоху AI-агентов кодинга

Незадокументированная ошибка обнаружена в коде бортового компьютера Apollo 11 с использованием искусственного интеллекта и языка спецификаций.

Claude Code v2.1.98 добавляет мастер Vertex AI, исправления безопасности и песочницу для подпроцессов.

Выпускники освистывают напутствия об ИИ на выпускных: признак настроений разработчиков