Qwen 3.5 122B MoE на уровне 35 т/с на одном 3090 с ik_llama.cpp MTP

✍️ OpenClawRadar📅 Опубликовано: 6 июня 2026 г.🔗 Source
Qwen 3.5 122B MoE на уровне 35 т/с на одном 3090 с ik_llama.cpp MTP
Ad

Разработчик, использующий полностью локальный стек вывода на одном ПК, сообщает о достижении скорости 35 токенов/с на Qwen 3.5 122B MoE с использованием всего одной 3090, причем ключевым фактором стал форк llama.cpp, исправляющий MTP (Multi-Token Prediction) для выгруженных экспертов.

Конфигурация оборудования

  • Процессор AMD 9900X
  • 192 ГБ DDR5-5200 RAM (названная «секретным оружием»)
  • Две 3090 (Ti + обычная), без NVLink

Карта 1 запускает рабочего: Qwen3.5-122B-A10B с использованием Unsloth IQ3_S MTP GGUF и контекстом 204K. 75% экспертных слоев выгружены на CPU с помощью хирургических флагов -ot. Карта 2 запускает решатель: Qwen3.6-35B-A3B Q4_K_XL с MTP на скорости 135 т/с, контекст 262K.

Дополнительные экземпляры только на CPU обрабатывают фоновые задачи: Dialectic (35B heretic Q8), Scribe-Logos (Gemma4 19B), Moonshot (Gemma4 2B) — всего ~19 ГБ ОЗУ.

Ad

Результаты ik_llama.cpp

В стандартном llama.cpp MTP оценивает экспертов каждого предполагаемого токена последовательно через DDR5, что на контенте для рассуждений фактически ухудшает производительность — накладные расходы на черновик перевешивают ускорение принятия. Форк ik реализует слитые MoE операции, которые пакетно читают экспертов для предполагаемых токенов, превращая прирост MTP с +4% в +20%. Разработчик сообщает о 35 т/с декодирования на модели 122B с одной 3090 при использовании этого форка.

Если вы выгружаете экспертов на RAM на любой MoE-модели, попробуйте ik_llama.cpp, прежде чем отказаться от MTP.

Общая стоимость сборки

  • ~$1600 за RAM
  • ~$1600 за две 3090
  • ~$400 за всё остальное
  • Эксплуатационные расходы: только электричество

📖 Читать полный источник: r/openclaw

Ad

👀 Смотрите также

Anthropic публикует Champion Kit для внедрения Claude Code
Гайды

Anthropic публикует Champion Kit для внедрения Claude Code

Сценарий для инженеров, внедряющих Claude Code в своей компании: делитесь повторно используемыми промптами, отвечайте в общих каналах и проводите еженедельный показ достижений — всего около 40 минут в неделю.

OpenClawRadar
72-шаговая настройка Claude: от стандартного до продвинутого пользователя
Гайды

72-шаговая настройка Claude: от стандартного до продвинутого пользователя

Подробная статья в Medium содержит чек-лист из 72 шагов для настройки Claude — от стандартных параметров до продвинутых функций для опытных пользователей. Опубликована на HN с 10 баллами и 1 комментарием.

OpenClawRadar
6 шаблонов, которые действительно активируют файлы навыков Claude Code
Гайды

6 шаблонов, которые действительно активируют файлы навыков Claude Code

Протестировав более 2300 файлов навыков, разработчик выявил 6 закономерностей, определяющих, загрузится ли навык Claude Code, когда это необходимо – включая конкретный язык триггеров, одну возможность на файл и списки «когда не использовать».

OpenClawRadar
Охота на баги: Сбои WireGuard и несоответствие MTU в GKE
Гайды

Охота на баги: Сбои WireGuard и несоответствие MTU в GKE

Инженеры Lovable отследили пользовательские ошибки до крахов anetd из-за паники конкурентного доступа к карте в интеграции WireGuard от Google, а затем обнаружили вторичное несоответствие MTU после отключения шифрования.

OpenClawRadar