Integration lokaler LLM-Agenten mit ComfyUI für die Stapelbildgenerierung mit natürlicher Sprache

✍️ OpenClawRadar📅 Veröffentlicht: 2. April 2026🔗 Source
Integration lokaler LLM-Agenten mit ComfyUI für die Stapelbildgenerierung mit natürlicher Sprache
Ad

Ein Entwickler auf r/LocalLLaMA hat seine Integration zwischen einem lokalen OpenClaw-Agenten und ComfyUI geteilt, die natürliche Sprach-Batch-Bildgenerierung ermöglicht. Das Setup erlaubt es Benutzern, Bildanfragen in einfachem Englisch zu beschreiben, wobei der Agent den gesamten ComfyUI-Pipeline ohne manuelle UI-Interaktion handhabt.

Wie die Integration funktioniert

Der Ablauf folgt dieser Sequenz:

  • Agent empfängt Bildanfrage
  • Parst Absicht in strukturierte Eingaben (Prompt, Abmessungen, Schritte, Seed)
  • Ruft comfyui-Fähigkeit als Werkzeug auf
  • Fähigkeit erstellt einen ComfyUI-Workflow-JSON aus den Eingaben
  • Sendet POST an lokale ComfyUI-HTTP-API (/prompt)
  • Pollt /history alle 2 Sekunden bis Render abgeschlossen ist
  • Ruft Ausgabepfad von /view ab
  • Gibt Ergebnis an Agent zurück
  • Agent bestätigt mit Benutzer

Technische Implementierungsdetails

Die Integration nutzt ComfyUIs knoten-ID-basiertes JSON-Workflow-Format. Die Fähigkeit ordnet Agenteneingaben bestimmten Knoten-IDs in einer Basis-Workflow-Vorlage zu (KSampler, CLIPTextEncode, etc.). Dies wird als "der fragilste Teil der Integration beschrieben, da es von der Knotenstruktur Ihres Workflows abhängt, aber für Standard-Setups funktioniert es zuverlässig."

Die Fähigkeit enthält eine Startverifizierung durch Ping von /object_info, um sicherzustellen, dass ComfyUI tatsächlich bereit ist (nicht nur erreichbar), bevor Jobs angenommen werden. Dies verhindert, dass Jobs sich ohne Ausführung anstellen, während Checkpoints noch laden.

Ad

Verbesserungen der Fehlerbehandlung

Jeder API-Aufruf ist verpackt, um agentenlesbare Fehler statt roher HTTP-Fehler zurückzugeben. Zum Beispiel wird "Connection refused at 127.0.0.1:8188" zu "ComfyUI scheint nicht zu laufen. Starten Sie es mit --listen und versuchen Sie es erneut." Dies erleichtert das Debuggen, besonders bei Remote-Arbeit.

Aktuelle Einschränkungen

Die Integration unterstützt noch nicht:

  • Fortgeschrittene Multi-Knoten-Workflows (ControlNet, LoRA-Stacking)
  • Echtzeit-Fortschritts-Streaming via WebSocket
  • Plattformübergreifendes Testen über Windows hinaus

Der gesamte Stack läuft lokal mit OpenClaw (selbstgehostetes Agenten-Framework) + ComfyUI + einem Node.js-Fähigkeits-Skript, ohne Cloud-Komponenten.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

ATLAS: Open-Source-Testzeit-Berechnungspipeline für Qwen3-14B erreicht Spitzenleistung im Bereich Coding
Werkzeuge

ATLAS: Open-Source-Testzeit-Berechnungspipeline für Qwen3-14B erreicht Spitzenleistung im Bereich Coding

Ein College-Student hat ATLAS entwickelt, eine Open-Source-Testzeit-Rechenpipeline, die auf Qwen3-14B basiert und 74,6 % pass@1 bei LiveCodeBench v5-Problemen erreicht, bei Stromkosten von etwa 0,004 $ pro Aufgabe. Das System ist bei komplexen Problemen langsam, bietet aber eine vergleichbare Leistung wie Spitzenmodelle wie GPT-5 (84,6 %) und Claude 4.5 Sonnet (71,4 %).

OpenClawRadar
Altimate Code: Open-Source Agentisches Data-Engineering-Framework
Werkzeuge

Altimate Code: Open-Source Agentisches Data-Engineering-Framework

Altimate Code ist ein Open-Source-Harness, der deterministische Data-Engineering-Tools für KI-Agenten bereitstellt und Probleme wie halluzinierte SQL-Abfragen und fehlenden Schema-Kontext adressiert. Er umfasst Spalten-Lineage, SQL-Anti-Pattern-Erkennung und dbt-Integration, mit Benchmarks, die eine Leistung von 74,4 % auf ADE-bench zeigen.

OpenClawRadar
TEMM1E v3.1.0: KI-Agent, der sich selbst durch Benutzerinteraktionen feinabstimmt
Werkzeuge

TEMM1E v3.1.0: KI-Agent, der sich selbst durch Benutzerinteraktionen feinabstimmt

TEMM1E v3.1.0 führt Eigen-Tune ein, ein System, das LLM-Interaktionen als Trainingsdaten erfasst, die Qualität aus Nutzerverhalten bewertet und lokale Modelle via LoRA feinabstimmt – ohne zusätzliche LLM-Kosten. Getestet auf Apple M2 korrigierte es Temperaturumrechnungen von 72°F = '150°C' auf '21,2°C' nach 10 Konversationen.

OpenClawRadar
Open-Source-System erfasst Claude-Code-Muster in sich entwickelnder Dokumentation
Werkzeuge

Open-Source-System erfasst Claude-Code-Muster in sich entwickelnder Dokumentation

Entwickler Lee Fuhr hat drei Open-Source-Repositories veröffentlicht, die systematisch Erkenntnisse aus der Arbeit mit Claude Code erfassen und kodifizieren. Das System umfasst ein Methodikdokument mit 14 Prinzipien und 19 Mustern, einen Architekturklassifizierungsrahmen und ein Speichersystem mit 149 Funktionen.

OpenClawRadar