Qwen 3.5 35Bを8GB VRAMでllama.cpp構成で実行中

限られたVRAMでのローカルQwen 3.5 35Bセットアップ
r/LocalLLaMAの開発者が、8GB VRAMのハードウェアでQwen 3.5 35Bモデルをローカル実行する設定を詳細に説明。クラウドサービスの制限に直面した後、Antigravity(Google AI Proプラン使用)からローカルLLMへ移行しました。
ハードウェアとモデル仕様
このセットアップは、i9-14900HX CPU(BIOSでEコア無効化、32GB DDR5 RAM)と8GB VRAMのRTX 4060m GPUを搭載したLenovo Legionノートパソコンを使用。具体的なモデルはQwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF)です。
パフォーマンスとllama.cpp設定
開発者はこのセットアップで、プロンプト処理で約700トークン/秒、トークン生成で42トークン/秒を達成したと報告。テスト後のllama.cppコマンドライン引数を提供:
-ngl 99 ^ --n-cpu-moe 40 ^ -c 192000 ^ -t 12 ^ -tb 16 ^ -b 4096 ^ --ubatch-size 2048 ^ --flash-attn on ^ --cache-type-k q8_0 ^ --cache-type-v q8_0 ^ --mlock
ワークフロー統合
エージェントワークフローでは、Antigravityに最も近い代替としてVSCodeのClineを見つけました。このセットアップ内で、Planモードにはkat-coder-proを、Actモードにはqwen3.5を使用。開発者は、プライバシー懸念よりもスムーズなワークフローを優先し、このローカル設定がGoogle Gemini 3 FlashをAntigravityで使い続けるよりも優れているかについてフィードバックを求めています。
📖 Read the full source: r/LocalLLaMA
👀 See Also

Cortex v1.2では、LLMによる情報強化、引用付きQ&A、およびコンフリクト解決機能が追加されました。
OpenClawエージェント向けのローカルメモリレイヤーであるCortexが、v1.2をリリースしました。デフォルトでLLMによる拡張エンリッチメントが有効化され、引用付きの質問応答コマンド、改善された重複排除と競合解決機能が追加されています。このツールには、統一された設定管理と意図ベースの検索事前フィルタリングも含まれています。

人工生命:計算生命研究の300行Python再現
『Computational Life』論文の再現をPythonで実装。240×135のグリッド上でBrainfuckに似たプログラムがランダムにペアリングされ、命令テープを連結することで相互作用し、自己複製コードが進化する様子をシミュレート。

OpenClawのスキルクリエーターツールは、開発者がワークフローをパッケージ化するのを支援します。
開発者が「skills-creator」というスキルを作成しました。これはユーザーがOpenClawのための質の高いスキルを作成するのをガイドし、曖昧な説明やドキュメントのような指示といった一般的な落とし穴に対処します。ClawHubで利用可能で、説明の公式、チェックリスト、複雑さの段階を含むデザイン主導のアプローチを提供します。

私のエージェントは自分自身に内受容感覚システムを構築した――今や彼には欲望がある
エージェントが自分自身に内受容システムを構築 — 今や彼には欲望がある