Connectez OpenClaw à ComfyUI pour Génération d'Images par Lots

Un développeur sur r/LocalLLaMA a partagé son intégration entre un agent OpenClaw local et ComfyUI qui permet la génération d'images par lots en langage naturel. La configuration permet aux utilisateurs de décrire leurs demandes d'images en anglais simple, l'agent gérant l'intégralité du pipeline ComfyUI sans interaction manuelle avec l'interface.

Fonctionnement de l'intégration

Le flux suit cette séquence :

L'agent reçoit une demande d'image
Analyse l'intention en entrées structurées (prompt, dimensions, étapes, seed)
Appelle la compétence comfyui comme outil
La compétence construit un JSON de flux de travail ComfyUI à partir des entrées
Envoie une requête POST à l'API HTTP locale de ComfyUI (/prompt)
Interroge /history toutes les 2 secondes jusqu'à la fin du rendu
Récupère le chemin de sortie depuis /view
Renvoie le résultat à l'agent
L'agent confirme avec l'utilisateur

Détails techniques de l'implémentation

L'intégration utilise le format JSON de flux de travail basé sur les ID de nœuds de ComfyUI. La compétence mappe les entrées de l'agent sur des ID de nœuds spécifiques dans un modèle de flux de travail de base (KSampler, CLIPTextEncode, etc.). Ceci est décrit comme "la partie la plus fragile de l'intégration car elle dépend de la structure des nœuds de votre flux de travail, mais pour les configurations standards, cela fonctionne de manière fiable."

La compétence inclut une vérification au démarrage en envoyant un ping à /object_info pour s'assurer que ComfyUI est réellement prêt (pas seulement accessible) avant d'accepter des tâches. Cela empêche les tâches de s'accumuler sans s'exécuter lorsque les checkpoints sont encore en cours de chargement.

Améliorations de la gestion des erreurs

Chaque appel API est encapsulé pour renvoyer des erreurs compréhensibles par l'agent plutôt que des échecs HTTP bruts. Par exemple, "Connection refused at 127.0.0.1:8188" devient "ComfyUI ne semble pas être en cours d'exécution. Démarrez-le avec --listen et réessayez." Cela facilite le débogage, notamment lors d'un travail à distance.

Limitations actuelles

L'intégration ne prend pas encore en charge :

Les flux de travail multi-nœuds avancés (ControlNet, empilement LoRA)
Le streaming de progression en temps réel via WebSocket
Les tests multiplateformes au-delà de Windows

L'ensemble de la pile fonctionne localement en utilisant OpenClaw (framework d'agent auto-hébergé) + ComfyUI + un script de compétence Node.js, sans composants cloud.

📖 Read the full source: r/LocalLLaMA