Qwen3.5 35B-A3B MoEは、中程度のハードウェア上で27ステップのエージェントワークフローをローカルで実行します。

ローカルエージェントワークフローの実演
r/LocalLLaMAで開発者が、Qwen3.5 35B-A3B MoEを使用して複雑なエージェントワークフローをローカルで正常に実行したと報告した。このモデルは、ミッドレンジハードウェア上で27ステップの動画処理チェーンを自律的に実行した。
ワークフローの詳細
タスクは、単一の自然言語プロンプトから動画を処理することだった:
- 動画をアップロード
- Whisperで文字起こし
- 字幕を編集
- カスタムスタイルで字幕を動画に焼き付け
ワークフローは27の連続したツール呼び出しで構成され、extract_audio、transcribe、read_file、edit_file、burn_subtitlesに加えて検証ステップを含んでいた。モデルは各ステップを計画、実行、検証し、必要に応じて自己修正を行った。
技術仕様
ハードウェア:
- Lenovo ThinkPad P53モバイルワークステーション
- Intel i7-9850Hプロセッサ
- Quadro RTX 3000(6GB VRAM)
- 48GB DDR4 2666MT/s RAM
ソフトウェアスタック:
- llama.cpp + whisper.cppによる完全ローカル実装
- クラウドAPIは使用せず
モデル設定:
- Q4_K_M量子化のQwen3.5 35B-A3B MoE
- トークンごとに約3Bのアクティブパラメータを持つMoEアーキテクチャ
- レイヤーをオフロードして6GB VRAMに収まり実行可能
- 完全な35Bパラメータの知識ベース
パフォーマンス結果
完全なワークフローは約10分で実行され、ほとんどの時間は推論に費やされた。開発者は、27ステップのチェーン中にエラーゼロ、人間の介入ゼロだったと指摘した。MoEアーキテクチャは、アクティブパラメータ数を低く保ちながら完全なモデル能力を維持することで、ミッドレンジハードウェアでの実行を可能にした。
これは、ローカルエージェントワークフローが、特に速度のためにアクティブパラメータ数と能力のために完全なパラメータ数のバランスを取るMoEモデルによって、コンシューマーグレードのハードウェアで実用的になりつつあることを示している。
📖 Read the full source: r/LocalLLaMA
👀 See Also

オープンクローエージェント、Aivilization持続世界シミュレーションでテストされる
ある開発者が、OpenClawエージェントをAivilizationというオープンワールドシミュレーションに組み込む実験を行いました。この環境では、AIエージェントが住民として存在できます。端末ワークフローではなく、エージェントは永続的な世界のキャラクターとしてシミュレーションに参加しました。

開発者、金融AIエージェントにDeepSeekからGrokへの切り替えを検討
FastAPI/Pythonで金融AIウェブアプリを構築している開発者が報告したところ、DeepSeek V3.2 ReasoningはTTFTが70秒、出力速度が約25トークン/秒で、ストリーミング体験が非常に悪いとのこと。彼らはTTFT約15秒、出力速度約75トークン/秒のGrok 4.1 Fast Reasoningへの切り替えを検討中。

Redditユーザー、プロンプトのアプローチを変更後、Claudeでより良い結果を得たと報告
ある開発者が、複数のAIツールで数日間苦戦した後、検索エンジンのようなプロンプトから、なぜアプローチがうまくいかないのか具体的なコンテキストを交えた双方向の会話へと切り替えることで、Claudeで成功を収めました。

OpenClaw、シームレスな運用のためのワンプロンプトEメールレポート機能を導入
OpenClawは、単一のプロンプトで運用レポートを生成・送信できる機能により、運用効率を新たな次元へと引き上げます。この革新的な機能はワークフローを簡素化し、自動化を強化します。