300ドルのラップトップでQwen 3.5 35Bを10.33 t/s:完全最適化ブレイクダウン

Redditユーザーが、300ドルのLenovo Ideapad Slim 3i(第12世代i3-1215U、8GB半田付け + 32GB DDR4拡張)でQwen 3.5 35Bの推論を10.33 t/sまで引き出しました。このセットアップでは、Q4_K_S量子化されたMoEモデル(アクティブパラメータは約3Bのみ)と、ik_llama.cppビルド4509を使用しています。
ハードウェアとモデル
- ノートPC: Lenovo Ideapad Slim 3i 2023(約300ドル)
- CPU: Intel i3-1215U(6コア、2つのパフォーマンスコアを使用)
- RAM: 8GB半田付け + 32GB DDR4 SO-DIMM(Flexモード)
- OS: Linux Mint
- モデル:
Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf(35B MoE、トークンあたり3Bアクティブパラメータ) - バックエンド: ik_llama.cpp コミット 40aae0b6、GCC 13.3.0でコンパイル
適用された最適化
- BIOS: バッテリー→エクストリームパフォーマンスモード;ファンは静音(オフ)に設定
- OS電源プロファイル: パフォーマンス
- コア固定:
taskset -c 0,2でスレッドをパフォーマンスコア0と2に固定 - 量子化: Q4_K_S
- バッチサイズ: 64(
-ub 64) - 投機的デコード: MTPタイプ、ドラフト最大3
- Flash attention、fmoe、rtr — すべてデフォルトで有効
- ベンチマーク前に再起動
使用したコマンド
taskset -c 0,2 ./build/bin/llama-cli \
-m "/home/default/LLM Models/Qwen3.5-35B-A3B-uncensored-heretic-v2-Native-MTP-Preserved-Q4_K_S.gguf" \
-p "User: フランスの歴史を説明してください \nAI:" \
-n 1028 \
--spec-type mtp \
--draft-max 3 \
-t 2 \
-ub 64 \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.0 \
--presence-penalty 1.5 \
--repeat-penalty 1.0
結果
- プロンプト評価: 22.49 t/s
- 推論: 10.33 t/s(1028トークン)
- 温度: 約90°C、ik_llamaではワット数制限不要(以前はllama.cppで17.5W制限が必要でした)
Qwen 3.5 MoEが速い理由
Qwen 3.5 35B MoEアーキテクチャは、トークンあたり約3Bのパラメータのみを活性化します(高密度モデルとは異なります)。比較として、Gemma 4 26b(4B活性)では同様の設定で約3 t/sしか出ませんでした。これは、Qwen 3.5のMoEルーティングとスパース計算が特にCPUに優しいことを示しています。
さらなる高速化の可能性
- XMPメモリタイミング用のカスタムBIOSで+10% t/s
- 高級サーマルコンパウンドでのグリス再塗布
- DDR4からDDR5ノートPC RAMへのアップグレード(グリス再塗布と組み合わせて+20% t/s)
対象者: 低予算ハードウェアでローカルLLMを実行し、CPUのみの推論でQwen MoEモデルから最大のパフォーマンスを引き出したい開発者。
📖 全文ソース: r/LocalLLaMA
👀 See Also

AIコーディングエージェント向けのセキュリティスキャンスキルは、デプロイメントを自動的にチェックします。
ある開発者が、AIコーディングエージェントが自身のデプロイメントを自動的にスキャンし、公開された.envファイル、開放されたポート、欠落したセキュリティヘッダー、漏洩したソースコードを検出できるスキルファイルを作成しました。このスキャンはデプロイ後に毎回実行され、約30秒かかります。

obsidian-mcp:大規模ボルトを対象とした25のツールを備えたClaude向けグラフ認識MCPサーバー
obsidian-mcpは、get_note、traverse_graph、query_dataview、move_note、create_notesを含む25のツールを提供するMCPサーバーで、ClaudeにObsidian保管庫へのグラフ認識アクセスを提供します。5,000ノートの保管庫でもコンテキストウィンドウの問題を回避します。MITライセンスで、Claude Desktop、Claude Code、Cursor、Cline、Continue、Zedで動作します。

Claude Codeルーチン:推論機能を備えたCronのようなエージェントタスクのスケジュール
Claude Code Routines を使えば、セッションを開いたままにしなくても、エージェントタスクをスケジュールに従って実行できます。Redditユーザーが実際の例を共有しています:毎晩のコミットレビュー、毎週の依存関係チェック、毎日のエラーログ分析 — 生のスクリプト出力ではなく、AIによる推論を用いています。

Claude Codeによる.xcstringsの自動ローカライゼーション
新しいClaude Codeスキルが、Xcodeの.xcstringsファイルのローカライゼーションを5つのパイプラインステージ(ドメインスキャン、コメント生成、CLDR複数形を含む翻訳、文法チェック、複数形修正変換)で自動化します。