300ドルノートPCでQwen 3.5 35Bが10.33 t/s！その秘密

Redditユーザーが、300ドルのLenovo Ideapad Slim 3i（第12世代i3-1215U、8GB半田付け + 32GB DDR4拡張）でQwen 3.5 35Bの推論を10.33 t/sまで引き出しました。このセットアップでは、Q4_K_S量子化されたMoEモデル（アクティブパラメータは約3Bのみ）と、ik_llama.cppビルド4509を使用しています。

ハードウェアとモデル

ノートPC: Lenovo Ideapad Slim 3i 2023（約300ドル）
CPU: Intel i3-1215U（6コア、2つのパフォーマンスコアを使用）
RAM: 8GB半田付け + 32GB DDR4 SO-DIMM（Flexモード）
OS: Linux Mint
モデル: Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf（35B MoE、トークンあたり3Bアクティブパラメータ）
バックエンド: ik_llama.cpp コミット 40aae0b6、GCC 13.3.0でコンパイル

適用された最適化

BIOS: バッテリー→エクストリームパフォーマンスモード；ファンは静音（オフ）に設定
OS電源プロファイル: パフォーマンス
コア固定: taskset -c 0,2でスレッドをパフォーマンスコア0と2に固定
量子化: Q4_K_S
バッチサイズ: 64（-ub 64）
投機的デコード: MTPタイプ、ドラフト最大3
Flash attention、fmoe、rtr — すべてデフォルトで有効
ベンチマーク前に再起動

使用したコマンド

taskset -c 0,2 ./build/bin/llama-cli \
  -m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
  -p "User: フランスの歴史を説明してください \nAI:" \
  -n 1028 \
  --spec-type mtp \
  --draft-max 3 \
  -t 2 \
  -ub 64 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.0 \
  --presence-penalty 1.5 \
  --repeat-penalty 1.0

結果

プロンプト評価: 22.49 t/s
推論: 10.33 t/s（1028トークン）
温度: 約90°C、ik_llamaではワット数制限不要（以前はllama.cppで17.5W制限が必要でした）

Qwen 3.5 MoEが速い理由

Qwen 3.5 35B MoEアーキテクチャは、トークンあたり約3Bのパラメータのみを活性化します（高密度モデルとは異なります）。比較として、Gemma 4 26b（4B活性）では同様の設定で約3 t/sしか出ませんでした。これは、Qwen 3.5のMoEルーティングとスパース計算が特にCPUに優しいことを示しています。