Qwen 3.5 122B MoE на уровне 35 т/с на одном 3090 с ik_llama.cpp MTP

Разработчик, использующий полностью локальный стек вывода на одном ПК, сообщает о достижении скорости 35 токенов/с на Qwen 3.5 122B MoE с использованием всего одной 3090, причем ключевым фактором стал форк llama.cpp, исправляющий MTP (Multi-Token Prediction) для выгруженных экспертов.
Конфигурация оборудования
- Процессор AMD 9900X
- 192 ГБ DDR5-5200 RAM (названная «секретным оружием»)
- Две 3090 (Ti + обычная), без NVLink
Карта 1 запускает рабочего: Qwen3.5-122B-A10B с использованием Unsloth IQ3_S MTP GGUF и контекстом 204K. 75% экспертных слоев выгружены на CPU с помощью хирургических флагов -ot. Карта 2 запускает решатель: Qwen3.6-35B-A3B Q4_K_XL с MTP на скорости 135 т/с, контекст 262K.
Дополнительные экземпляры только на CPU обрабатывают фоновые задачи: Dialectic (35B heretic Q8), Scribe-Logos (Gemma4 19B), Moonshot (Gemma4 2B) — всего ~19 ГБ ОЗУ.
Результаты ik_llama.cpp
В стандартном llama.cpp MTP оценивает экспертов каждого предполагаемого токена последовательно через DDR5, что на контенте для рассуждений фактически ухудшает производительность — накладные расходы на черновик перевешивают ускорение принятия. Форк ik реализует слитые MoE операции, которые пакетно читают экспертов для предполагаемых токенов, превращая прирост MTP с +4% в +20%. Разработчик сообщает о 35 т/с декодирования на модели 122B с одной 3090 при использовании этого форка.
Если вы выгружаете экспертов на RAM на любой MoE-модели, попробуйте ik_llama.cpp, прежде чем отказаться от MTP.
Общая стоимость сборки
- ~$1600 за RAM
- ~$1600 за две 3090
- ~$400 за всё остальное
- Эксплуатационные расходы: только электричество
📖 Читать полный источник: r/openclaw
👀 Смотрите также

Anthropic публикует Champion Kit для внедрения Claude Code
Сценарий для инженеров, внедряющих Claude Code в своей компании: делитесь повторно используемыми промптами, отвечайте в общих каналах и проводите еженедельный показ достижений — всего около 40 минут в неделю.

72-шаговая настройка Claude: от стандартного до продвинутого пользователя
Подробная статья в Medium содержит чек-лист из 72 шагов для настройки Claude — от стандартных параметров до продвинутых функций для опытных пользователей. Опубликована на HN с 10 баллами и 1 комментарием.

6 шаблонов, которые действительно активируют файлы навыков Claude Code
Протестировав более 2300 файлов навыков, разработчик выявил 6 закономерностей, определяющих, загрузится ли навык Claude Code, когда это необходимо – включая конкретный язык триггеров, одну возможность на файл и списки «когда не использовать».

Охота на баги: Сбои WireGuard и несоответствие MTU в GKE
Инженеры Lovable отследили пользовательские ошибки до крахов anetd из-за паники конкурентного доступа к карте в интеграции WireGuard от Google, а затем обнаружили вторичное несоответствие MTU после отключения шифрования.