Como Integrar Agente LLM Local ao ComfyUI para Geração de Imagens

Um desenvolvedor no r/LocalLLaMA compartilhou sua integração entre um agente OpenClaw local e o ComfyUI que permite a geração de imagens em lote por linguagem natural. A configuração permite que os usuários descrevam solicitações de imagem em inglês simples, com o agente lidando com todo o pipeline do ComfyUI sem interação manual com a interface.

Como a Integração Funciona

O fluxo segue esta sequência:

Agente recebe a solicitação de imagem
Analisa a intenção em entradas estruturadas (prompt, dimensões, passos, seed)
Chama a habilidade comfyui como uma ferramenta
A habilidade constrói um JSON de fluxo de trabalho do ComfyUI a partir das entradas
Faz POST para a API HTTP local do ComfyUI (/prompt)
Verifica /history a cada 2 segundos até a renderização ser concluída
Recupera o caminho de saída de /view
Retorna o resultado para o agente
Agente confirma com o usuário

Detalhes da Implementação Técnica

A integração usa o formato JSON de fluxo de trabalho baseado em ID de nó do ComfyUI. A habilidade mapeia as entradas do agente para IDs de nó específicos em um modelo de fluxo de trabalho base (KSampler, CLIPTextEncode, etc.). Isso é descrito como "a parte mais frágil da integração, pois depende da estrutura de nós do seu fluxo de trabalho, mas para configurações padrão funciona de forma confiável".

A habilidade inclui verificação de inicialização fazendo ping em /object_info para garantir que o ComfyUI esteja realmente pronto (não apenas acessível) antes de aceitar trabalhos. Isso evita que os trabalhos fiquem na fila sem executar quando os checkpoints ainda estão carregando.

Melhorias no Tratamento de Erros

Cada chamada de API é encapsulada para retornar erros legíveis pelo agente em vez de falhas HTTP brutas. Por exemplo, "Connection refused at 127.0.0.1:8188" se torna "O ComfyUI parece não estar em execução. Inicie-o com --listen e tente novamente." Isso facilita a depuração, especialmente ao trabalhar remotamente.

Limitações Atuais

A integração ainda não suporta:

Fluxos de trabalho avançados com múltiplos nós (ControlNet, empilhamento LoRA)
Transmissão de progresso em tempo real via WebSocket
Testes multiplataforma além do Windows

Toda a pilha é executada localmente usando OpenClaw (framework de agente auto-hospedado) + ComfyUI + um script de habilidade Node.js, sem componentes na nuvem.

📖 Leia a fonte completa: r/LocalLLaMA