Интеграция локальных LLM-агентов с ComfyUI: пакетная генерация

Разработчик на r/LocalLLaMA поделился своей интеграцией между локальным агентом OpenClaw и ComfyUI, которая позволяет выполнять пакетную генерацию изображений с помощью естественного языка. Эта настройка позволяет пользователям описывать запросы на изображения простым английским языком, при этом агент обрабатывает весь конвейер ComfyUI без ручного взаимодействия с интерфейсом.

Как работает интеграция

Процесс следует такой последовательности:

Агент получает запрос на изображение
Анализирует намерение и преобразует его в структурированные входные данные (промпт, размеры, шаги, сид)
Вызывает навык comfyui как инструмент
Навык создаёт JSON рабочего процесса ComfyUI из входных данных
Отправляет POST-запрос к локальному HTTP API ComfyUI (/prompt)
Опрашивает /history каждые 2 секунды до завершения рендеринга
Получает путь к выходному файлу из /view
Возвращает результат агенту
Агент подтверждает пользователю

Технические детали реализации

Интеграция использует JSON-формат рабочего процесса ComfyUI на основе идентификаторов узлов. Навык сопоставляет входные данные агента с конкретными идентификаторами узлов в шаблонном базовом рабочем процессе (KSampler, CLIPTextEncode и т.д.). Это описывается как «самая хрупкая часть интеграции, поскольку она зависит от структуры узлов вашего рабочего процесса, но для стандартных настроек работает надёжно».

Навык включает проверку при запуске с помощью опроса /object_info, чтобы убедиться, что ComfyUI действительно готов (а не просто доступен) перед принятием заданий. Это предотвращает накопление заданий в очереди без выполнения, когда контрольные точки всё ещё загружаются.

Улучшения обработки ошибок

Каждый вызов API обёрнут для возврата ошибок, понятных агенту, вместо необработанных HTTP-сбоев. Например, «Connection refused at 127.0.0.1:8188» становится «Похоже, ComfyUI не запущен. Запустите его с параметром --listen и попробуйте снова». Это упрощает отладку, особенно при работе удалённо.

Текущие ограничения

Интеграция пока не поддерживает:

Расширенные рабочие процессы с несколькими узлами (ControlNet, стекинг LoRA)
Потоковую передачу прогресса в реальном времени через WebSocket
Кроссплатформенное тестирование за пределами Windows

Весь стек работает локально с использованием OpenClaw (самостоятельно размещаемая платформа агента) + ComfyUI + скрипт навыка на Node.js, без облачных компонентов.

📖 Read the full source: r/LocalLLaMA

Интеграция локальных агентов LLM с ComfyUI для пакетной генерации изображений на естественном языке

Как работает интеграция

Технические детали реализации

Улучшения обработки ошибок

Текущие ограничения

👀 Смотрите также

Марми: Самостоятельно размещаемое мобильное приложение для управления несколькими сессиями ИИ-агентов программирования

Открытые ИИ-контекстные пакеты для вопросов в сфере права, соответствия требованиям и финансов

Qwen 3.6 27B с MTP на V100 32GB: 54 т/с через ветку llama.cpp

ClawMetry добавляет удаленный мониторинг со сквозным шифрованием для агентов OpenClaw.