Qwen 3.5 122B MoE: 35 т/с на одной 3090 с ik

Разработчик, использующий полностью локальный стек вывода на одном ПК, сообщает о достижении скорости 35 токенов/с на Qwen 3.5 122B MoE с использованием всего одной 3090, причем ключевым фактором стал форк llama.cpp, исправляющий MTP (Multi-Token Prediction) для выгруженных экспертов.

Конфигурация оборудования

Процессор AMD 9900X
192 ГБ DDR5-5200 RAM (названная «секретным оружием»)
Две 3090 (Ti + обычная), без NVLink

Карта 1 запускает рабочего: Qwen3.5-122B-A10B с использованием Unsloth IQ3_S MTP GGUF и контекстом 204K. 75% экспертных слоев выгружены на CPU с помощью хирургических флагов -ot. Карта 2 запускает решатель: Qwen3.6-35B-A3B Q4_K_XL с MTP на скорости 135 т/с, контекст 262K.

Дополнительные экземпляры только на CPU обрабатывают фоновые задачи: Dialectic (35B heretic Q8), Scribe-Logos (Gemma4 19B), Moonshot (Gemma4 2B) — всего ~19 ГБ ОЗУ.

Результаты ik_llama.cpp

В стандартном llama.cpp MTP оценивает экспертов каждого предполагаемого токена последовательно через DDR5, что на контенте для рассуждений фактически ухудшает производительность — накладные расходы на черновик перевешивают ускорение принятия. Форк ik реализует слитые MoE операции, которые пакетно читают экспертов для предполагаемых токенов, превращая прирост MTP с +4% в +20%. Разработчик сообщает о 35 т/с декодирования на модели 122B с одной 3090 при использовании этого форка.

Если вы выгружаете экспертов на RAM на любой MoE-модели, попробуйте ik_llama.cpp, прежде чем отказаться от MTP.