Integration lokaler LLM-Agenten mit ComfyUI für die Stapelbildgenerierung mit natürlicher Sprache

✍️ OpenClawRadar📅 Veröffentlicht: 2. April 2026🔗 Source
Integration lokaler LLM-Agenten mit ComfyUI für die Stapelbildgenerierung mit natürlicher Sprache
Ad

Ein Entwickler auf r/LocalLLaMA hat seine Integration zwischen einem lokalen OpenClaw-Agenten und ComfyUI geteilt, die natürliche Sprach-Batch-Bildgenerierung ermöglicht. Das Setup erlaubt es Benutzern, Bildanfragen in einfachem Englisch zu beschreiben, wobei der Agent den gesamten ComfyUI-Pipeline ohne manuelle UI-Interaktion handhabt.

Wie die Integration funktioniert

Der Ablauf folgt dieser Sequenz:

  • Agent empfängt Bildanfrage
  • Parst Absicht in strukturierte Eingaben (Prompt, Abmessungen, Schritte, Seed)
  • Ruft comfyui-Fähigkeit als Werkzeug auf
  • Fähigkeit erstellt einen ComfyUI-Workflow-JSON aus den Eingaben
  • Sendet POST an lokale ComfyUI-HTTP-API (/prompt)
  • Pollt /history alle 2 Sekunden bis Render abgeschlossen ist
  • Ruft Ausgabepfad von /view ab
  • Gibt Ergebnis an Agent zurück
  • Agent bestätigt mit Benutzer

Technische Implementierungsdetails

Die Integration nutzt ComfyUIs knoten-ID-basiertes JSON-Workflow-Format. Die Fähigkeit ordnet Agenteneingaben bestimmten Knoten-IDs in einer Basis-Workflow-Vorlage zu (KSampler, CLIPTextEncode, etc.). Dies wird als "der fragilste Teil der Integration beschrieben, da es von der Knotenstruktur Ihres Workflows abhängt, aber für Standard-Setups funktioniert es zuverlässig."

Die Fähigkeit enthält eine Startverifizierung durch Ping von /object_info, um sicherzustellen, dass ComfyUI tatsächlich bereit ist (nicht nur erreichbar), bevor Jobs angenommen werden. Dies verhindert, dass Jobs sich ohne Ausführung anstellen, während Checkpoints noch laden.

Ad

Verbesserungen der Fehlerbehandlung

Jeder API-Aufruf ist verpackt, um agentenlesbare Fehler statt roher HTTP-Fehler zurückzugeben. Zum Beispiel wird "Connection refused at 127.0.0.1:8188" zu "ComfyUI scheint nicht zu laufen. Starten Sie es mit --listen und versuchen Sie es erneut." Dies erleichtert das Debuggen, besonders bei Remote-Arbeit.

Aktuelle Einschränkungen

Die Integration unterstützt noch nicht:

  • Fortgeschrittene Multi-Knoten-Workflows (ControlNet, LoRA-Stacking)
  • Echtzeit-Fortschritts-Streaming via WebSocket
  • Plattformübergreifendes Testen über Windows hinaus

Der gesamte Stack läuft lokal mit OpenClaw (selbstgehostetes Agenten-Framework) + ComfyUI + einem Node.js-Fähigkeits-Skript, ohne Cloud-Komponenten.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Relay: Ein Tool zur Übergabe von Claude-Code-Sitzungen an andere KI-Agenten
Werkzeuge

Relay: Ein Tool zur Übergabe von Claude-Code-Sitzungen an andere KI-Agenten

Relay ist ein Rust-Binary, das den Sitzungskontext von Claude Code extrahiert – einschließlich Gesprächsverlauf, Tool-Aufrufe, Fehler und Git-Status – und ihn an andere KI-Agenten wie Codex oder Gemini weitergibt, wenn Ratenlimits erreicht werden. Es unterstützt 8 Agenten und kann über GitHub oder npm installiert werden.

OpenClawRadar
Open-Source-MCP-Server verbindet Claude mit Wirtschaftsdaten der brasilianischen Zentralbank
Werkzeuge

Open-Source-MCP-Server verbindet Claude mit Wirtschaftsdaten der brasilianischen Zentralbank

Sidney Bissoli entwickelte bcb-br-mcp, einen unter MIT-Lizenz stehenden MCP-Server, der Claude Zugriff auf über 18.000 Zeitreihen der brasilianischen Zentralbank (SGS/BCB) bietet. Der Server umfasst 8 Tools, die Zinssätze, Inflation, Wechselkurse, BIP, Beschäftigung und Kreditdaten abdecken.

OpenClawRadar
Skill Bill: Ein Markdown-basiertes Governance-Framework für KI-Codierfähigkeiten
Werkzeuge

Skill Bill: Ein Markdown-basiertes Governance-Framework für KI-Codierfähigkeiten

Ein Entwickler hat Skill Bill erstellt, ein Framework mit 44 auf Markdown basierenden KI-Fähigkeiten für Kotlin, Android/KMP, PHP und Go, das Probleme beim Prompt-Management wie Namensabweichungen und doppelte Logik adressiert. Es umfasst Orchestrator-Fähigkeiten wie 'feature-implement', die 10-12 Fähigkeitsaufrufe verketten, und synchronisiert mit Claude Code, Copilot, GLM und Codex.

OpenClawRadar
Phaselock: Ein KI-Agenten-Steuerungssystem inspiriert von Erziehungstechniken
Werkzeuge

Phaselock: Ein KI-Agenten-Steuerungssystem inspiriert von Erziehungstechniken

Phaselock ist eine Open-Source-Agent-Skill, die vier Kontrollmechanismen für KI-Agenten implementiert: explizite Gates vor Aktionen, sofortiges Feedback bei Fehlern, eingeschränkte Auswahlmöglichkeiten und mechanische Regelbefolgung. Es funktioniert mit Claude Code, Cursor, Windsurf und Tools, die Hooks unterstützen.

OpenClawRadar