300ドルのラップトップでQwen 3.5 35Bを10.33 t/s:完全最適化ブレイクダウン

✍️ OpenClawRadar📅 公開日: June 14, 2026🔗 Source
300ドルのラップトップでQwen 3.5 35Bを10.33 t/s:完全最適化ブレイクダウン
Ad

Redditユーザーが、300ドルのLenovo Ideapad Slim 3i(第12世代i3-1215U、8GB半田付け + 32GB DDR4拡張)でQwen 3.5 35Bの推論を10.33 t/sまで引き出しました。このセットアップでは、Q4_K_S量子化されたMoEモデル(アクティブパラメータは約3Bのみ)と、ik_llama.cppビルド4509を使用しています。

ハードウェアとモデル

  • ノートPC: Lenovo Ideapad Slim 3i 2023(約300ドル)
  • CPU: Intel i3-1215U(6コア、2つのパフォーマンスコアを使用)
  • RAM: 8GB半田付け + 32GB DDR4 SO-DIMM(Flexモード)
  • OS: Linux Mint
  • モデル: Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf(35B MoE、トークンあたり3Bアクティブパラメータ)
  • バックエンド: ik_llama.cpp コミット 40aae0b6、GCC 13.3.0でコンパイル

適用された最適化

  • BIOS: バッテリー→エクストリームパフォーマンスモード;ファンは静音(オフ)に設定
  • OS電源プロファイル: パフォーマンス
  • コア固定: taskset -c 0,2でスレッドをパフォーマンスコア0と2に固定
  • 量子化: Q4_K_S
  • バッチサイズ: 64(-ub 64
  • 投機的デコード: MTPタイプ、ドラフト最大3
  • Flash attention、fmoe、rtr — すべてデフォルトで有効
  • ベンチマーク前に再起動
Ad

使用したコマンド

taskset -c 0,2 ./build/bin/llama-cli \
  -m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
  -p "User: フランスの歴史を説明してください \nAI:" \
  -n 1028 \
  --spec-type mtp \
  --draft-max 3 \
  -t 2 \
  -ub 64 \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --min-p 0.0 \
  --presence-penalty 1.5 \
  --repeat-penalty 1.0

結果

  • プロンプト評価: 22.49 t/s
  • 推論: 10.33 t/s(1028トークン)
  • 温度: 約90°C、ik_llamaではワット数制限不要(以前はllama.cppで17.5W制限が必要でした)

Qwen 3.5 MoEが速い理由

Qwen 3.5 35B MoEアーキテクチャは、トークンあたり約3Bのパラメータのみを活性化します(高密度モデルとは異なります)。比較として、Gemma 4 26b(4B活性)では同様の設定で約3 t/sしか出ませんでした。これは、Qwen 3.5のMoEルーティングとスパース計算が特にCPUに優しいことを示しています。

さらなる高速化の可能性

  • XMPメモリタイミング用のカスタムBIOSで+10% t/s
  • 高級サーマルコンパウンドでのグリス再塗布
  • DDR4からDDR5ノートPC RAMへのアップグレード(グリス再塗布と組み合わせて+20% t/s)

対象者: 低予算ハードウェアでローカルLLMを実行し、CPUのみの推論でQwen MoEモデルから最大のパフォーマンスを引き出したい開発者。

📖 全文ソース: r/LocalLLaMA

Ad

👀 See Also

AIコーディングエージェント向けのセキュリティスキャンスキルは、デプロイメントを自動的にチェックします。
Tools

AIコーディングエージェント向けのセキュリティスキャンスキルは、デプロイメントを自動的にチェックします。

ある開発者が、AIコーディングエージェントが自身のデプロイメントを自動的にスキャンし、公開された.envファイル、開放されたポート、欠落したセキュリティヘッダー、漏洩したソースコードを検出できるスキルファイルを作成しました。このスキャンはデプロイ後に毎回実行され、約30秒かかります。

OpenClawRadar
obsidian-mcp:大規模ボルトを対象とした25のツールを備えたClaude向けグラフ認識MCPサーバー
Tools

obsidian-mcp:大規模ボルトを対象とした25のツールを備えたClaude向けグラフ認識MCPサーバー

obsidian-mcpは、get_note、traverse_graph、query_dataview、move_note、create_notesを含む25のツールを提供するMCPサーバーで、ClaudeにObsidian保管庫へのグラフ認識アクセスを提供します。5,000ノートの保管庫でもコンテキストウィンドウの問題を回避します。MITライセンスで、Claude Desktop、Claude Code、Cursor、Cline、Continue、Zedで動作します。

OpenClawRadar
Claude Codeルーチン:推論機能を備えたCronのようなエージェントタスクのスケジュール
Tools

Claude Codeルーチン:推論機能を備えたCronのようなエージェントタスクのスケジュール

Claude Code Routines を使えば、セッションを開いたままにしなくても、エージェントタスクをスケジュールに従って実行できます。Redditユーザーが実際の例を共有しています:毎晩のコミットレビュー、毎週の依存関係チェック、毎日のエラーログ分析 — 生のスクリプト出力ではなく、AIによる推論を用いています。

OpenClawRadar
Claude Codeによる.xcstringsの自動ローカライゼーション
Tools

Claude Codeによる.xcstringsの自動ローカライゼーション

新しいClaude Codeスキルが、Xcodeの.xcstringsファイルのローカライゼーションを5つのパイプラインステージ(ドメインスキャン、コメント生成、CLDR複数形を含む翻訳、文法チェック、複数形修正変換)で自動化します。

OpenClawRadar