10.33 т/с на Qwen 3.5 35B с ноутбуком за $300: Полный разбор оптимизации

Пользователь Reddit разогнал инференс Qwen 3.5 35B до 10,33 т/с на ноутбуке Lenovo Ideapad Slim 3i за $300 (12-е поколение i3-1215U, 8 ГБ впаяно + 32 ГБ DDR4 расширение). В сборке используется квантованная модель MoE Q4_K_S с ~3 млрд активных параметров и сборка ik_llama.cpp 4509.
Железо и модель
- Ноутбук: Lenovo Ideapad Slim 3i 2023 (~$300)
- Процессор: Intel i3-1215U (6 ядер, используются 2 производительных)
- ОЗУ: 8 ГБ впаяно + 32 ГБ DDR4 SO-DIMM (Flex mode)
- ОС: Linux Mint
- Модель:
Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf(35B MoE, 3B активных параметров на токен) - Бэкенд: ik_llama.cpp коммит 40aae0b6, скомпилирован GCC 13.3.0
Применённые оптимизации
- BIOS: Battery → Extreme performance mode; вентилятор выключен
- Профиль питания ОС: производительность
- Привязка ядер: потоки привязаны к производительным ядрам 0 и 2 через
taskset -c 0,2 - Квантование: Q4_K_S
- Размер пакета: 64 (
-ub 64) - Спекулятивное декодирование: тип MTP, макс. 3 черновика
- Flash attention, fmoe, rtr — все включены по умолчанию
- Чистая перезагрузка перед тестом
Использованная команда
taskset -c 0,2 ./build/bin/llama-cli \
-m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
-p "User: Please explain the history of france \nAI:" \
-n 1028 \
--spec-type mtp \
--draft-max 3 \
-t 2 \
-ub 64 \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.0 \
--presence-penalty 1.5 \
--repeat-penalty 1.0
Результаты
- Промпт: 22,49 т/с
- Инференс: 10,33 т/с (на 1028 токенах)
- Температура: ~90°C, ограничение по мощности не требуется с ik_llama (ранее требовался лимит 17,5 Вт на llama.cpp)
Почему Qwen 3.5 MoE быстр
Архитектура Qwen 3.5 35B MoE активирует только ~3 млрд параметров на токен, в отличие от плотных моделей. Для сравнения, Gemma 4 26b (4B активных) выдавала лишь ~3 т/с при аналогичных настройках — это указывает на то, что маршрутизация MoE и разреженные вычисления в Qwen 3.5 особенно дружественны к CPU.
Потенциальные улучшения
- Кастомный BIOS для таймингов памяти XMP → +10% т/с
- Замена термопасты на высококачественную
- Переход с DDR4 на DDR5 (в сочетании с заменой пасты → +20% т/с)
Для кого это: Разработчики, запускающие локальные LLM на бюджетном железе и желающие выжать максимум производительности из моделей Qwen MoE при инференсе только на CPU.
📖 Source: r/LocalLLaMA
👀 Смотрите также

Локальный инструмент RAG, созданный с использованием Nemotron Nano 9B v2 и вызова инструментов vLLM
Разработчик создал локальный инструмент для исследований RAG, который полностью работает на одном GPU, используя Nemotron Nano 9B v2 Japanese на vLLM с пользовательскими плагинами-парсерами для вызова инструментов. Система включает двухэтапный процесс извлечения-выполнения с двуязычным извлечением ключевых слов и параллельным поиском FTS5/DuckDuckGo.

Инструментарий для путешествий: навыки ИИ и серверы MCP для поиска баллов и миль
Репозиторий на GitHub предоставляет 7 навыков в формате markdown и 6 MCP-серверов, которые обучают Claude Code и OpenCode искать авиабилеты за мили в более чем 25 программах лояльности, сравнивать цены за наличные, получать информацию о балансах бонусных счетов, а также находить отели и паромы. Для настройки требуется клонировать репозиторий и запустить setup.sh.

cc+ Desktop App для Claude Code: Управление несколькими сессиями и оркестрация флота
cc+ — это приложение с открытым исходным кодом для рабочего стола, созданное на основе Claude Agent SDK для Claude Code, доступное для macOS и Linux. Оно предоставляет вкладки с несколькими сессиями, визуализацию дерева активности в реальном времени, оценку безопасности, контроль рабочих процессов и возможности оркестрации флота.

Улучшение сеансов кода Claude с claude-self-improve.
Claude-self-improve — это инструмент командной строки, который улучшает производительность ИИ Claude Code, анализируя данные сессий и автоматически обновляя файлы памяти.