Lokale LLM-Agenten mit ComfyUI: Batch-Bildgenerierung über KI

Ein Entwickler auf r/LocalLLaMA hat seine Integration zwischen einem lokalen OpenClaw-Agenten und ComfyUI geteilt, die natürliche Sprach-Batch-Bildgenerierung ermöglicht. Das Setup erlaubt es Benutzern, Bildanfragen in einfachem Englisch zu beschreiben, wobei der Agent den gesamten ComfyUI-Pipeline ohne manuelle UI-Interaktion handhabt.

Wie die Integration funktioniert

Der Ablauf folgt dieser Sequenz:

Agent empfängt Bildanfrage
Parst Absicht in strukturierte Eingaben (Prompt, Abmessungen, Schritte, Seed)
Ruft comfyui-Fähigkeit als Werkzeug auf
Fähigkeit erstellt einen ComfyUI-Workflow-JSON aus den Eingaben
Sendet POST an lokale ComfyUI-HTTP-API (/prompt)
Pollt /history alle 2 Sekunden bis Render abgeschlossen ist
Ruft Ausgabepfad von /view ab
Gibt Ergebnis an Agent zurück
Agent bestätigt mit Benutzer

Technische Implementierungsdetails

Die Integration nutzt ComfyUIs knoten-ID-basiertes JSON-Workflow-Format. Die Fähigkeit ordnet Agenteneingaben bestimmten Knoten-IDs in einer Basis-Workflow-Vorlage zu (KSampler, CLIPTextEncode, etc.). Dies wird als "der fragilste Teil der Integration beschrieben, da es von der Knotenstruktur Ihres Workflows abhängt, aber für Standard-Setups funktioniert es zuverlässig."

Die Fähigkeit enthält eine Startverifizierung durch Ping von /object_info, um sicherzustellen, dass ComfyUI tatsächlich bereit ist (nicht nur erreichbar), bevor Jobs angenommen werden. Dies verhindert, dass Jobs sich ohne Ausführung anstellen, während Checkpoints noch laden.

Verbesserungen der Fehlerbehandlung

Jeder API-Aufruf ist verpackt, um agentenlesbare Fehler statt roher HTTP-Fehler zurückzugeben. Zum Beispiel wird "Connection refused at 127.0.0.1:8188" zu "ComfyUI scheint nicht zu laufen. Starten Sie es mit --listen und versuchen Sie es erneut." Dies erleichtert das Debuggen, besonders bei Remote-Arbeit.

Aktuelle Einschränkungen

Die Integration unterstützt noch nicht:

Fortgeschrittene Multi-Knoten-Workflows (ControlNet, LoRA-Stacking)
Echtzeit-Fortschritts-Streaming via WebSocket
Plattformübergreifendes Testen über Windows hinaus

Der gesamte Stack läuft lokal mit OpenClaw (selbstgehostetes Agenten-Framework) + ComfyUI + einem Node.js-Fähigkeits-Skript, ohne Cloud-Komponenten.

📖 Read the full source: r/LocalLLaMA

Integration lokaler LLM-Agenten mit ComfyUI für die Stapelbildgenerierung mit natürlicher Sprache

Wie die Integration funktioniert

Technische Implementierungsdetails

Verbesserungen der Fehlerbehandlung

Aktuelle Einschränkungen

👀 Siehe auch

GPT-5.5 Codex gegen Claude Opus 4.7: Praxisnahe KI-Coding-Benchmarks

AI Doomsday Toolbox v0.932 fügt Benchmarking, Datensatzerstellung und einen Agenten-Arbeitsbereich für lokale KI auf Android hinzu.

Steam City: Eine 3D-Pixel-Art-Karte deiner Steam-Bibliothek, erstellt mit Claude Code

Claude-context-lint-Tool überprüft den Token-Overhead in Claude-Code-Projekten