10.33 т/с на Qwen 3.5 35B с ноутбуком за $300: Полный разбор оптимизации

✍️ OpenClawRadar📅 Опубликовано: 14 июня 2026 г.🔗 Source

Пользователь Reddit разогнал инференс Qwen 3.5 35B до 10,33 т/с на ноутбуке Lenovo Ideapad Slim 3i за $300 (12-е поколение i3-1215U, 8 ГБ впаяно + 32 ГБ DDR4 расширение). В сборке используется квантованная модель MoE Q4_K_S с ~3 млрд активных параметров и сборка ik_llama.cpp 4509.

Железо и модель

Ноутбук: Lenovo Ideapad Slim 3i 2023 (~$300)
Процессор: Intel i3-1215U (6 ядер, используются 2 производительных)
ОЗУ: 8 ГБ впаяно + 32 ГБ DDR4 SO-DIMM (Flex mode)
ОС: Linux Mint
Модель: Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf (35B MoE, 3B активных параметров на токен)
Бэкенд: ik_llama.cpp коммит 40aae0b6, скомпилирован GCC 13.3.0

Применённые оптимизации

BIOS: Battery → Extreme performance mode; вентилятор выключен
Профиль питания ОС: производительность
Привязка ядер: потоки привязаны к производительным ядрам 0 и 2 через taskset -c 0,2
Квантование: Q4_K_S
Размер пакета: 64 (-ub 64)
Спекулятивное декодирование: тип MTP, макс. 3 черновика
Flash attention, fmoe, rtr — все включены по умолчанию
Чистая перезагрузка перед тестом

Использованная команда

taskset -c 0,2 ./build/bin/llama-cli \
  -m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
  -p "User: Please explain the history of france \nAI:" \
  -n 1028 \
  --spec-type mtp \
  --draft-max 3 \
  -t 2 \
  -ub 64 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.0 \
  --presence-penalty 1.5 \
  --repeat-penalty 1.0

Результаты

Промпт: 22,49 т/с
Инференс: 10,33 т/с (на 1028 токенах)
Температура: ~90°C, ограничение по мощности не требуется с ik_llama (ранее требовался лимит 17,5 Вт на llama.cpp)

Почему Qwen 3.5 MoE быстр

Архитектура Qwen 3.5 35B MoE активирует только ~3 млрд параметров на токен, в отличие от плотных моделей. Для сравнения, Gemma 4 26b (4B активных) выдавала лишь ~3 т/с при аналогичных настройках — это указывает на то, что маршрутизация MoE и разреженные вычисления в Qwen 3.5 особенно дружественны к CPU.

Потенциальные улучшения

Кастомный BIOS для таймингов памяти XMP → +10% т/с
Замена термопасты на высококачественную
Переход с DDR4 на DDR5 (в сочетании с заменой пасты → +20% т/с)

Для кого это: Разработчики, запускающие локальные LLM на бюджетном железе и желающие выжать максимум производительности из моделей Qwen MoE при инференсе только на CPU.

📖 Source: r/LocalLLaMA

👀 Смотрите также

Инструменты

Локальный инструмент RAG, созданный с использованием Nemotron Nano 9B v2 и вызова инструментов vLLM

Разработчик создал локальный инструмент для исследований RAG, который полностью работает на одном GPU, используя Nemotron Nano 9B v2 Japanese на vLLM с пользовательскими плагинами-парсерами для вызова инструментов. Система включает двухэтапный процесс извлечения-выполнения с двуязычным извлечением ключевых слов и параллельным поиском FTS5/DuckDuckGo.

27 мар. 2026 г., 05:45 UTC

OpenClawRadar

Инструменты

Инструментарий для путешествий: навыки ИИ и серверы MCP для поиска баллов и миль

Репозиторий на GitHub предоставляет 7 навыков в формате markdown и 6 MCP-серверов, которые обучают Claude Code и OpenCode искать авиабилеты за мили в более чем 25 программах лояльности, сравнивать цены за наличные, получать информацию о балансах бонусных счетов, а также находить отели и паромы. Для настройки требуется клонировать репозиторий и запустить setup.sh.

14 апр. 2026 г., 10:50 UTC

OpenClawRadar

Инструменты

cc+ Desktop App для Claude Code: Управление несколькими сессиями и оркестрация флота

cc+ — это приложение с открытым исходным кодом для рабочего стола, созданное на основе Claude Agent SDK для Claude Code, доступное для macOS и Linux. Оно предоставляет вкладки с несколькими сессиями, визуализацию дерева активности в реальном времени, оценку безопасности, контроль рабочих процессов и возможности оркестрации флота.

27 мар. 2026 г., 07:45 UTC

OpenClawRadar

Инструменты

Улучшение сеансов кода Claude с claude-self-improve.

Claude-self-improve — это инструмент командной строки, который улучшает производительность ИИ Claude Code, анализируя данные сессий и автоматически обновляя файлы памяти.

13 февр. 2026 г., 06:45 UTC

OpenClawRadar