Интеграция локальных агентов LLM с ComfyUI для пакетной генерации изображений на естественном языке

Разработчик на r/LocalLLaMA поделился своей интеграцией между локальным агентом OpenClaw и ComfyUI, которая позволяет выполнять пакетную генерацию изображений с помощью естественного языка. Эта настройка позволяет пользователям описывать запросы на изображения простым английским языком, при этом агент обрабатывает весь конвейер ComfyUI без ручного взаимодействия с интерфейсом.
Как работает интеграция
Процесс следует такой последовательности:
- Агент получает запрос на изображение
- Анализирует намерение и преобразует его в структурированные входные данные (промпт, размеры, шаги, сид)
- Вызывает навык comfyui как инструмент
- Навык создаёт JSON рабочего процесса ComfyUI из входных данных
- Отправляет POST-запрос к локальному HTTP API ComfyUI (/prompt)
- Опрашивает /history каждые 2 секунды до завершения рендеринга
- Получает путь к выходному файлу из /view
- Возвращает результат агенту
- Агент подтверждает пользователю
Технические детали реализации
Интеграция использует JSON-формат рабочего процесса ComfyUI на основе идентификаторов узлов. Навык сопоставляет входные данные агента с конкретными идентификаторами узлов в шаблонном базовом рабочем процессе (KSampler, CLIPTextEncode и т.д.). Это описывается как «самая хрупкая часть интеграции, поскольку она зависит от структуры узлов вашего рабочего процесса, но для стандартных настроек работает надёжно».
Навык включает проверку при запуске с помощью опроса /object_info, чтобы убедиться, что ComfyUI действительно готов (а не просто доступен) перед принятием заданий. Это предотвращает накопление заданий в очереди без выполнения, когда контрольные точки всё ещё загружаются.
Улучшения обработки ошибок
Каждый вызов API обёрнут для возврата ошибок, понятных агенту, вместо необработанных HTTP-сбоев. Например, «Connection refused at 127.0.0.1:8188» становится «Похоже, ComfyUI не запущен. Запустите его с параметром --listen и попробуйте снова». Это упрощает отладку, особенно при работе удалённо.
Текущие ограничения
Интеграция пока не поддерживает:
- Расширенные рабочие процессы с несколькими узлами (ControlNet, стекинг LoRA)
- Потоковую передачу прогресса в реальном времени через WebSocket
- Кроссплатформенное тестирование за пределами Windows
Весь стек работает локально с использованием OpenClaw (самостоятельно размещаемая платформа агента) + ComfyUI + скрипт навыка на Node.js, без облачных компонентов.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Инди-разработчик представил CLI-инструмент 'Ideanator' для структурирования неопределенных идей с помощью локальных языковых моделей.
Идеанатор — это CLI инструмент, разработанный самоучкой 19-летним разработчиком с использованием локальных LLM, таких как Ollama/MLX. Он преобразует неопределенные идеи в четко определенные концепции, полностью офлайн.

Маркетинговая Мудрость MCP: Бесплатный Семантический Поиск для Стартап-Инсайтов
Бесплатный MCP-сервер предоставляет семантический поиск по 6 700 идеям из 1 040 эпизодов подкастов My First Million и Starter Story. Он предлагает четыре инструмента для поиска мудрости основателей о росте, маркетинге и бизнес-стратегиях.

Argus: Расширение VS Code для отладки затрат и поведения сеансов Claude Code
Разработчик создал Argus — расширение для VS Code, которое парсит JSONL-транскрипты Claude Code в timeline в реальном времени с разбивкой токенов/стоимости на каждый шаг, коэффициентом попадания в кеш и пометками циклов повторных попыток, дублирующихся чтений и перегрузки контекста.

终极Unreal引擎MCP:Claude Code现可用132个工具构建和验证Unreal引擎关卡
Открытый MCP-сервер предоставляет 132 инструмента в 26 доменах, позволяя Claude создавать актеров, задавать значения UPROPERTY, делать скриншоты вьюпорта, управлять камерой и исправлять ошибки после мутаций.