Entwicklung benutzerdefinierter Bildanalysefähigkeiten in OpenClaw mit lokalen Modellen

✍️ OpenClawRadar📅 Veröffentlicht: 13. April 2026🔗 Source
Entwicklung benutzerdefinierter Bildanalysefähigkeiten in OpenClaw mit lokalen Modellen
Ad

Ein Entwickler dokumentierte seinen Prozess zur Erstellung einer benutzerdefinierten Bildanalyse-Fähigkeit für OpenClaw unter ausschließlicher Verwendung kostenloser, lokaler Tools ohne API-Kosten.

Einrichtung und erste Herausforderungen

Der Entwickler betreibt OpenClaw auf Windows 11 über Ubuntu WSL mit Ollama als LLM-Backend. Er stieß auf Einschränkungen bei der Bildverarbeitung der WebUI – obwohl er einen Upload-Ordner erstellte, konnte das System nur Dateiinformationen lesen, aber keine Bildinhalte analysieren. Dies veranlasste ihn, Alternativen zu kostenpflichtigen API-Lösungen (Claude, Gemini, OpenAI) oder Hardware-Käufen zu erkunden.

Entwicklung der Lösung

Nach der Installation von context7mcp bewertete er lokale Sprachmodelle und entschied sich für Qwen2.5 VL. Erste Versuche mit integrierten Fähigkeiten scheiterten an Problemen mit der Modellnamen-Akzeptanz und der Ollama-Integration. Der Durchbruch gelang durch systematisches Testen: Bilder über API-Aufrufe an Ollama senden, Antworten auslesen und sowohl Bash- als auch Python-Skripte zur Prozessabwicklung erstellen.

Ad

Implementierungsdetails

  • Umgebung: Windows 11 mit Ubuntu WSL
  • LLM-Backend: Ollama
  • Ausgewähltes Modell: Qwen2.5 VL
  • Integrationsmethode: API-Aufrufe an Ollama
  • Erstellte Skripte: Bash- und Python-Versionen

Die benutzerdefinierte Fähigkeit registriert sich nativ in OpenClaw und kann mit Befehlen wie „analysiere dieses Bild“ oder „schau dir dieses Foto an“ aufgerufen werden, wobei detaillierte und genaue Antworten zurückgegeben werden. Der Entwickler merkt an, dass zukünftige Verbesserungen mit kleineren Qwen3/3.5VL-Modellen die Leistung weiter steigern könnten.

Trotz Herausforderungen wie mehrfachen Neuinstallationen und Frustrationen mit unvollständigen Open-Source-Tools beschreibt der Entwickler die Erfahrung als Erschaffung eines „selbstkorrigierenden, sich selbst verbessernden Organismus“ und bleibt beeindruckt vom Potenzial von OpenClaw für die Entwicklung benutzerdefinierter Fähigkeiten.

📖 Read the full source: r/openclaw

Ad

👀 Siehe auch

Aufbau eines persistenten Speichers für Claude mit vier Markdown-Dateien
Anwendungsfälle

Aufbau eines persistenten Speichers für Claude mit vier Markdown-Dateien

Ein Entwickler baute ein System, um Claudes sitzungsbasierte Kontextbeschränkung zu überwinden, indem er vier Markdown-Dateien über den Projektkontext lädt: Protokoll, CONVERGEHERE, Tägliche Erfassung und Kontinuität. Das System erhält den Kontext über Sitzungen hinweg, indem Claude beim Start alle Dateien liest und Kontinuität und CONVERGEHERE am Ende der Sitzung aktualisiert.

OpenClawRadar
Billiger OpenClaw-Setup: 5$/Monat Hetzner VPS + DeepSeek API für unter 1$
Anwendungsfälle

Billiger OpenClaw-Setup: 5$/Monat Hetzner VPS + DeepSeek API für unter 1$

Ein Reddit-Nutzer teilt ein praktisches OpenClaw-Setup mit einem Hetzner-VPS für 5 €/Monat, DeepSeek-API (5 € Guthaben), Telegram-Bot, Grafana und Netdata – die Kosten belaufen sich bisher auf etwa 1 €.

OpenClawRadar
State-Machine-Ansatz zur Koordination mehrerer KI-Agenten
Anwendungsfälle

State-Machine-Ansatz zur Koordination mehrerer KI-Agenten

Das Team von ultrathink.art stellte fest, dass die Koordination mehrerer KI-Agenten explizite Zustandsübergänge, Herzschlag-Zeitüberschreitungen, Wiederholungslimits und Aufgabenverkettung erfordert, anstatt traditioneller Nachrichtenwarteschlangen. Sie implementierten obligatorische Qualitätskontrollen zwischen den Agentenübergaben, um fehlerhafte Ausgaben zu verhindern.

OpenClawRadar
Fallstudie: Verwendung von LLM-Prompts anstelle von programmatischem Scaffolding für Multi-Agenten-Software-Erstellung
Anwendungsfälle

Fallstudie: Verwendung von LLM-Prompts anstelle von programmatischem Scaffolding für Multi-Agenten-Software-Erstellung

Eine Fallstudie von 10 autonomen Software-Builds mit einem Claude-Opus-Orchestrator mit CLI-Zugriff und Codex-Worker-Agents produzierte 10 TypeScript-Browserspiele mit insgesamt über 50.000 Codezeilen ohne menschliche Code-Intervention. Die Orchestrierungslogik war vollständig prompt-basiert und ersetzte ein speziell entwickeltes Gerüst.

OpenClawRadar