Cómo Integrar Agentes LLM Locales con ComfyUI para Generación por Lotes

Un desarrollador en r/LocalLLaMA compartió su integración entre un agente local de OpenClaw y ComfyUI que permite la generación de imágenes por lotes mediante lenguaje natural. La configuración permite a los usuarios describir solicitudes de imágenes en inglés sencillo, con el agente manejando toda la canalización de ComfyUI sin interacción manual con la interfaz de usuario.

Cómo funciona la integración

El flujo sigue esta secuencia:

El agente recibe la solicitud de imagen
Analiza la intención en entradas estructuradas (prompt, dimensiones, pasos, semilla)
Llama a la habilidad de comfyui como una herramienta
La habilidad construye un JSON de flujo de trabajo de ComfyUI a partir de las entradas
Envía una solicitud POST a la API HTTP local de ComfyUI (/prompt)
Consulta /history cada 2 segundos hasta que se complete el renderizado
Recupera la ruta de salida desde /view
Devuelve el resultado al agente
El agente confirma con el usuario

Detalles de implementación técnica

La integración utiliza el formato JSON de flujo de trabajo basado en ID de nodos de ComfyUI. La habilidad mapea las entradas del agente a ID de nodos específicos en una plantilla de flujo de trabajo base (KSampler, CLIPTextEncode, etc.). Esto se describe como "la parte más frágil de la integración ya que depende de la estructura de nodos de tu flujo de trabajo, pero para configuraciones estándar funciona de manera confiable".

La habilidad incluye verificación de inicio al hacer ping a /object_info para asegurarse de que ComfyUI esté realmente listo (no solo accesible) antes de aceptar trabajos. Esto evita que los trabajos se encolen sin ejecutarse cuando los puntos de control aún se están cargando.

Mejoras en el manejo de errores

Cada llamada API está envuelta para devolver errores legibles por el agente en lugar de fallos HTTP crudos. Por ejemplo, "Conexión rechazada en 127.0.0.1:8188" se convierte en "ComfyUI no parece estar ejecutándose. Inícialo con --listen e inténtalo de nuevo". Esto facilita la depuración, especialmente cuando se trabaja de forma remota.

Limitaciones actuales

La integración aún no admite:

Flujos de trabajo avanzados con múltiples nodos (ControlNet, apilamiento LoRA)
Transmisión de progreso en tiempo real a través de WebSocket
Pruebas multiplataforma más allá de Windows

Toda la pila se ejecuta localmente usando OpenClaw (marco de agente autoalojado) + ComfyUI + un script de habilidad Node.js, sin componentes en la nube.

📖 Read the full source: r/LocalLLaMA

Integrando Agentes LLM Locales con ComfyUI para la Generación de Imágenes por Lotes en Lenguaje Natural

Cómo funciona la integración

Detalles de implementación técnica

Mejoras en el manejo de errores

Limitaciones actuales

👀 Ver también

La habilidad Claude Code combina los enfoques de DeepMind Aletheia y Anthropic harness.

DreamScape: Constructor de Mundos 3D Basado en Navegador con Tecnología Claude Code y MCP

Phaselock: Un Sistema de Control de Agentes de IA Inspirado en Técnicas de Crianza

LightMem: Sistema de Memoria Ligero para Agentes LLM con Ganancias de 10×+ y Costo 100× Menor