ローカルLLMエージェントとComfyUIの統合による自然言語バッチ画像生成

r/LocalLLaMAの開発者が、ローカルのOpenClawエージェントとComfyUIを統合し、自然言語によるバッチ画像生成を可能にした方法を共有しました。このセットアップにより、ユーザーは平易な英語で画像リクエストを記述でき、エージェントが手動のUI操作なしにComfyUIパイプライン全体を処理します。
統合の仕組み
フローは以下の順序で進行します:
- エージェントが画像リクエストを受信
- 意図を構造化された入力(プロンプト、寸法、ステップ数、シード値)に解析
- ツールとしてcomfyuiスキルを呼び出し
- スキルが入力からComfyUIワークフローJSONを構築
- ローカルのComfyUI HTTP API(/prompt)にPOST送信
- 2秒ごとに/historyをポーリングしてレンダリング完了を確認
- /viewから出力パスを取得
- 結果をエージェントに返却
- エージェントがユーザーに確認
技術的な実装詳細
この統合では、ComfyUIのノードIDベースのJSONワークフロー形式を使用しています。スキルは、エージェントの入力をベースワークフローテンプレート(KSampler、CLIPTextEncodeなど)内の特定のノードIDにマッピングします。これは「ワークフローのノード構造に依存するため、統合の中で最も脆弱な部分ですが、標準的なセットアップでは確実に動作します」と説明されています。
スキルには、ジョブを受け付ける前に/object_infoにpingを送信してComfyUIが実際に準備完了状態(単に到達可能なだけでなく)であることを確認する起動検証が含まれています。これにより、チェックポイントがまだ読み込み中のときにジョブが実行されずにキューイングされるのを防ぎます。
エラー処理の改善
すべてのAPI呼び出しは、生のHTTPエラーではなく、エージェントが読み取り可能なエラーを返すようにラップされています。例えば、「127.0.0.1:8188で接続が拒否されました」は「ComfyUIが実行されていないようです。--listenを付けて起動し、再度お試しください」に変換されます。これにより、特にリモート作業時にデバッグが容易になります。
現在の制限事項
この統合では、以下の機能はまだサポートされていません:
- 高度なマルチノードワークフロー(ControlNet、LoRAスタッキング)
- WebSocketを介したリアルタイム進捗ストリーミング
- Windows以外のプラットフォームでのクロスプラットフォームテスト
このスタック全体は、OpenClaw(セルフホスト型エージェントフレームワーク)+ ComfyUI + Node.jsスキルスクリプトを使用してローカルで実行され、クラウドコンポーネントは一切使用されていません。
📖 Read the full source: r/LocalLLaMA
👀 See Also

OpenSwarm:線形およびGitHub用のマルチエージェントClaude CLIオーケストレータ
OpenSwarmは、複数のClaude Code CLIインスタンスを自律エージェントとしてオーケストレーションし、Linearの課題を取得してWorker/Reviewer/Test/Documenterパイプラインを実行します。メモリにはLanceDBと多言語e5埋め込みを使用し、Discordボット制御、PR自動改善、ウェブダッシュボードを備えています。

バディボード:Claude Codeの/buddy機能のための競争リーダーボード
BuddyBoardは、Claude Codeの/buddy機能のための競争型リーダーボードを作成するコミュニティ構築ツールで、統計データ、レアリティ階層、1,728通りの組み合わせを追跡するBuddyDexを備えたトレーディングカードを生成します。npx buddy-boardを実行して、あなたのバディをグローバルランキングに登録できます。

ブレインストームMCPサーバーがClaudeに他のLLMへのコード相談を可能にし、より良い回答を提供します。
ある開発者が、Claude Codeが回答を提供する前に他のAIモデルに相談できる「電話で友達に助けを求める」機能を提供する「brainstorm-mcp」というMCPサーバーを作成しました。このアプローチは、複雑な技術的決定において単一のモデルの視点だけでは不十分な状況に対処します。

RunLobsterとホスト型OpenClawソリューションの比較
ある開発者がRunLobsterをKiwiClaw、xCloud、そしてセルフホスト型OpenClawとそれぞれ2週間ずつ比較テストしました。RunLobsterは単なるホスティングではなく、根本的に異なるプロダクトとしてのアプローチを持ち、3,000のワンクリック統合機能と時間とともに蓄積されるメモリ機能を特徴としています。