Integrando Agentes LLM Locais com ComfyUI para Geração de Lotes de Imagens em Linguagem Natural

✍️ OpenClawRadar📅 Publicado: April 2, 2026🔗 Source
Integrando Agentes LLM Locais com ComfyUI para Geração de Lotes de Imagens em Linguagem Natural
Ad

Um desenvolvedor no r/LocalLLaMA compartilhou sua integração entre um agente OpenClaw local e o ComfyUI que permite a geração de imagens em lote por linguagem natural. A configuração permite que os usuários descrevam solicitações de imagem em inglês simples, com o agente lidando com todo o pipeline do ComfyUI sem interação manual com a interface.

Como a Integração Funciona

O fluxo segue esta sequência:

  • Agente recebe a solicitação de imagem
  • Analisa a intenção em entradas estruturadas (prompt, dimensões, passos, seed)
  • Chama a habilidade comfyui como uma ferramenta
  • A habilidade constrói um JSON de fluxo de trabalho do ComfyUI a partir das entradas
  • Faz POST para a API HTTP local do ComfyUI (/prompt)
  • Verifica /history a cada 2 segundos até a renderização ser concluída
  • Recupera o caminho de saída de /view
  • Retorna o resultado para o agente
  • Agente confirma com o usuário

Detalhes da Implementação Técnica

A integração usa o formato JSON de fluxo de trabalho baseado em ID de nó do ComfyUI. A habilidade mapeia as entradas do agente para IDs de nó específicos em um modelo de fluxo de trabalho base (KSampler, CLIPTextEncode, etc.). Isso é descrito como "a parte mais frágil da integração, pois depende da estrutura de nós do seu fluxo de trabalho, mas para configurações padrão funciona de forma confiável".

A habilidade inclui verificação de inicialização fazendo ping em /object_info para garantir que o ComfyUI esteja realmente pronto (não apenas acessível) antes de aceitar trabalhos. Isso evita que os trabalhos fiquem na fila sem executar quando os checkpoints ainda estão carregando.

Ad

Melhorias no Tratamento de Erros

Cada chamada de API é encapsulada para retornar erros legíveis pelo agente em vez de falhas HTTP brutas. Por exemplo, "Connection refused at 127.0.0.1:8188" se torna "O ComfyUI parece não estar em execução. Inicie-o com --listen e tente novamente." Isso facilita a depuração, especialmente ao trabalhar remotamente.

Limitações Atuais

A integração ainda não suporta:

  • Fluxos de trabalho avançados com múltiplos nós (ControlNet, empilhamento LoRA)
  • Transmissão de progresso em tempo real via WebSocket
  • Testes multiplataforma além do Windows

Toda a pilha é executada localmente usando OpenClaw (framework de agente auto-hospedado) + ComfyUI + um script de habilidade Node.js, sem componentes na nuvem.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

OpenAlly: Assistente de IA Local para Android com Controle Telefônico
Tools

OpenAlly: Assistente de IA Local para Android com Controle Telefônico

OpenAlly é um aplicativo Android que executa um assistente de IA localmente no seu telefone por meio de um processo Node.js embutido, com 51 habilidades integradas e capacidades de controle do telefone através do Aster companion. Ele se conecta a mais de 19 plataformas de mensagens e suporta 18 provedores de modelos com suas próprias chaves de API.

OpenClawRadar
Claude Code Controle Remoto: Continue Sessões Locais de Qualquer Dispositivo
Tools

Claude Code Controle Remoto: Continue Sessões Locais de Qualquer Dispositivo

O Controle Remoto do Claude Code permite que você continue sessões locais do Claude Code em outros dispositivos como telefones ou navegadores, mantendo tudo funcionando em sua máquina. Está disponível como uma visualização de pesquisa nos planos Pro e Max, exigindo configuração de autenticação e confiança no espaço de trabalho.

OpenClawRadar
LumaBrowser: Navegador Electron Descarrega a Análise DOM para LLMs Locais para Agentes de IA
Tools

LumaBrowser: Navegador Electron Descarrega a Análise DOM para LLMs Locais para Agentes de IA

LumaBrowser é um navegador Electron que transfere a análise do DOM para LLMs locais por meio de endpoints compatíveis com OpenAI, ajudando agentes autônomos a evitar o processamento de HTML bruto. Ele usa modelos como variantes do Qwen 2.5 para identificar elementos da interface do usuário e retorna seletores CSS.

OpenClawRadar
Manifest Adiciona Planos de Token MiniMax com Suporte ao Modelo M2.7
Tools

Manifest Adiciona Planos de Token MiniMax com Suporte ao Modelo M2.7

Manifest, uma camada de roteamento de código aberto para OpenClaw, agora suporta planos de tokens MiniMax a partir de US$ 10/mês. O novo modelo MiniMax M2.7 foi especificamente desenvolvido para fluxos de trabalho do OpenClaw e alcança 62,7 no MM-ClawBench e 56,2 no SWE-Bench Pro.

OpenClawRadar