10.33 т/с на Qwen 3.5 35B с ноутбуком за $300: Полный разбор оптимизации

✍️ OpenClawRadar📅 Опубликовано: 14 июня 2026 г.🔗 Source
10.33 т/с на Qwen 3.5 35B с ноутбуком за $300: Полный разбор оптимизации
Ad

Пользователь Reddit разогнал инференс Qwen 3.5 35B до 10,33 т/с на ноутбуке Lenovo Ideapad Slim 3i за $300 (12-е поколение i3-1215U, 8 ГБ впаяно + 32 ГБ DDR4 расширение). В сборке используется квантованная модель MoE Q4_K_S с ~3 млрд активных параметров и сборка ik_llama.cpp 4509.

Железо и модель

  • Ноутбук: Lenovo Ideapad Slim 3i 2023 (~$300)
  • Процессор: Intel i3-1215U (6 ядер, используются 2 производительных)
  • ОЗУ: 8 ГБ впаяно + 32 ГБ DDR4 SO-DIMM (Flex mode)
  • ОС: Linux Mint
  • Модель: Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf (35B MoE, 3B активных параметров на токен)
  • Бэкенд: ik_llama.cpp коммит 40aae0b6, скомпилирован GCC 13.3.0

Применённые оптимизации

  • BIOS: Battery → Extreme performance mode; вентилятор выключен
  • Профиль питания ОС: производительность
  • Привязка ядер: потоки привязаны к производительным ядрам 0 и 2 через taskset -c 0,2
  • Квантование: Q4_K_S
  • Размер пакета: 64 (-ub 64)
  • Спекулятивное декодирование: тип MTP, макс. 3 черновика
  • Flash attention, fmoe, rtr — все включены по умолчанию
  • Чистая перезагрузка перед тестом
Ad

Использованная команда

taskset -c 0,2 ./build/bin/llama-cli \
  -m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
  -p "User: Please explain the history of france \nAI:" \
  -n 1028 \
  --spec-type mtp \
  --draft-max 3 \
  -t 2 \
  -ub 64 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.0 \
  --presence-penalty 1.5 \
  --repeat-penalty 1.0

Результаты

  • Промпт: 22,49 т/с
  • Инференс: 10,33 т/с (на 1028 токенах)
  • Температура: ~90°C, ограничение по мощности не требуется с ik_llama (ранее требовался лимит 17,5 Вт на llama.cpp)

Почему Qwen 3.5 MoE быстр

Архитектура Qwen 3.5 35B MoE активирует только ~3 млрд параметров на токен, в отличие от плотных моделей. Для сравнения, Gemma 4 26b (4B активных) выдавала лишь ~3 т/с при аналогичных настройках — это указывает на то, что маршрутизация MoE и разреженные вычисления в Qwen 3.5 особенно дружественны к CPU.

Потенциальные улучшения

  • Кастомный BIOS для таймингов памяти XMP → +10% т/с
  • Замена термопасты на высококачественную
  • Переход с DDR4 на DDR5 (в сочетании с заменой пасты → +20% т/с)

Для кого это: Разработчики, запускающие локальные LLM на бюджетном железе и желающие выжать максимум производительности из моделей Qwen MoE при инференсе только на CPU.

📖 Source: r/LocalLLaMA

Ad

👀 Смотрите также

Локальный инструмент RAG, созданный с использованием Nemotron Nano 9B v2 и вызова инструментов vLLM
Инструменты

Локальный инструмент RAG, созданный с использованием Nemotron Nano 9B v2 и вызова инструментов vLLM

Разработчик создал локальный инструмент для исследований RAG, который полностью работает на одном GPU, используя Nemotron Nano 9B v2 Japanese на vLLM с пользовательскими плагинами-парсерами для вызова инструментов. Система включает двухэтапный процесс извлечения-выполнения с двуязычным извлечением ключевых слов и параллельным поиском FTS5/DuckDuckGo.

OpenClawRadar
Инструментарий для путешествий: навыки ИИ и серверы MCP для поиска баллов и миль
Инструменты

Инструментарий для путешествий: навыки ИИ и серверы MCP для поиска баллов и миль

Репозиторий на GitHub предоставляет 7 навыков в формате markdown и 6 MCP-серверов, которые обучают Claude Code и OpenCode искать авиабилеты за мили в более чем 25 программах лояльности, сравнивать цены за наличные, получать информацию о балансах бонусных счетов, а также находить отели и паромы. Для настройки требуется клонировать репозиторий и запустить setup.sh.

OpenClawRadar
cc+ Desktop App для Claude Code: Управление несколькими сессиями и оркестрация флота
Инструменты

cc+ Desktop App для Claude Code: Управление несколькими сессиями и оркестрация флота

cc+ — это приложение с открытым исходным кодом для рабочего стола, созданное на основе Claude Agent SDK для Claude Code, доступное для macOS и Linux. Оно предоставляет вкладки с несколькими сессиями, визуализацию дерева активности в реальном времени, оценку безопасности, контроль рабочих процессов и возможности оркестрации флота.

OpenClawRadar
Улучшение сеансов кода Claude с claude-self-improve.
Инструменты

Улучшение сеансов кода Claude с claude-self-improve.

Claude-self-improve — это инструмент командной строки, который улучшает производительность ИИ Claude Code, анализируя данные сессий и автоматически обновляя файлы памяти.

OpenClawRadar