Integrando Agentes LLM Locales con ComfyUI para la Generación de Imágenes por Lotes en Lenguaje Natural

✍️ OpenClawRadar📅 Publicado: 2 de abril de 2026🔗 Source
Integrando Agentes LLM Locales con ComfyUI para la Generación de Imágenes por Lotes en Lenguaje Natural
Ad

Un desarrollador en r/LocalLLaMA compartió su integración entre un agente local de OpenClaw y ComfyUI que permite la generación de imágenes por lotes mediante lenguaje natural. La configuración permite a los usuarios describir solicitudes de imágenes en inglés sencillo, con el agente manejando toda la canalización de ComfyUI sin interacción manual con la interfaz de usuario.

Cómo funciona la integración

El flujo sigue esta secuencia:

  • El agente recibe la solicitud de imagen
  • Analiza la intención en entradas estructuradas (prompt, dimensiones, pasos, semilla)
  • Llama a la habilidad de comfyui como una herramienta
  • La habilidad construye un JSON de flujo de trabajo de ComfyUI a partir de las entradas
  • Envía una solicitud POST a la API HTTP local de ComfyUI (/prompt)
  • Consulta /history cada 2 segundos hasta que se complete el renderizado
  • Recupera la ruta de salida desde /view
  • Devuelve el resultado al agente
  • El agente confirma con el usuario

Detalles de implementación técnica

La integración utiliza el formato JSON de flujo de trabajo basado en ID de nodos de ComfyUI. La habilidad mapea las entradas del agente a ID de nodos específicos en una plantilla de flujo de trabajo base (KSampler, CLIPTextEncode, etc.). Esto se describe como "la parte más frágil de la integración ya que depende de la estructura de nodos de tu flujo de trabajo, pero para configuraciones estándar funciona de manera confiable".

La habilidad incluye verificación de inicio al hacer ping a /object_info para asegurarse de que ComfyUI esté realmente listo (no solo accesible) antes de aceptar trabajos. Esto evita que los trabajos se encolen sin ejecutarse cuando los puntos de control aún se están cargando.

Ad

Mejoras en el manejo de errores

Cada llamada API está envuelta para devolver errores legibles por el agente en lugar de fallos HTTP crudos. Por ejemplo, "Conexión rechazada en 127.0.0.1:8188" se convierte en "ComfyUI no parece estar ejecutándose. Inícialo con --listen e inténtalo de nuevo". Esto facilita la depuración, especialmente cuando se trabaja de forma remota.

Limitaciones actuales

La integración aún no admite:

  • Flujos de trabajo avanzados con múltiples nodos (ControlNet, apilamiento LoRA)
  • Transmisión de progreso en tiempo real a través de WebSocket
  • Pruebas multiplataforma más allá de Windows

Toda la pila se ejecuta localmente usando OpenClaw (marco de agente autoalojado) + ComfyUI + un script de habilidad Node.js, sin componentes en la nube.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Construyendo un Agente de Investigación Autónomo con C# y LLMs Locales
Herramientas

Construyendo un Agente de Investigación Autónomo con C# y LLMs Locales

Un agente de investigación en C# automatiza el procesamiento de URL con LLM locales utilizando Ollama y llama3.1:8b, generando informes estructurados en markdown a partir de búsquedas web.

OpenClawRadar
Título: Argus: Una Extensión de VS Code para Depurar Costos y Comportamiento de Sesiones de Claude Code
Herramientas

Título: Argus: Una Extensión de VS Code para Depurar Costos y Comportamiento de Sesiones de Claude Code

Un desarrollador construyó Argus, una extensión de VS Code que analiza las transcripciones JSONL de Claude Code y las convierte en una línea de tiempo en tiempo real con desglose de tokens/costo por paso, tasa de aciertos de caché y detección de bucles de reintento, lecturas duplicadas y presión de contexto.

OpenClawRadar
Usuario de Reddit mide la sobrecarga de tokens MCP: 67K tokens consumidos antes de cualquier pregunta.
Herramientas

Usuario de Reddit mide la sobrecarga de tokens MCP: 67K tokens consumidos antes de cualquier pregunta.

Un desarrollador midió la sobrecarga de tokens de su servidor MCP en 67.000 tokens consumidos antes de escribir una sola pregunta, con Playwright MCP usando 13.600 tokens y GitHub MCP usando 18.000 tokens en estado inactivo. Reemplazaron MCP con habilidades y herramientas CLI para reducir los costes de contexto.

OpenClawRadar
Markdown como Protocolo para Interfaz de Usuario Agéntica con Ejecución en Flujo
Herramientas

Markdown como Protocolo para Interfaz de Usuario Agéntica con Ejecución en Flujo

Un prototipo utiliza Markdown como protocolo unificado para que los agentes de IA transmitan texto, código ejecutable y datos en una sola respuesta. Cuenta con ejecución en streaming donde el código se ejecuta declaración por declaración a medida que llega y una primitiva mount() para crear interfaces de usuario React con flujo de datos entre cliente, servidor y LLM.

OpenClawRadar