Entwicklung benutzerdefinierter Bildanalysefähigkeiten in OpenClaw mit lokalen Modellen

Ein Entwickler dokumentierte seinen Prozess zur Erstellung einer benutzerdefinierten Bildanalyse-Fähigkeit für OpenClaw unter ausschließlicher Verwendung kostenloser, lokaler Tools ohne API-Kosten.
Einrichtung und erste Herausforderungen
Der Entwickler betreibt OpenClaw auf Windows 11 über Ubuntu WSL mit Ollama als LLM-Backend. Er stieß auf Einschränkungen bei der Bildverarbeitung der WebUI – obwohl er einen Upload-Ordner erstellte, konnte das System nur Dateiinformationen lesen, aber keine Bildinhalte analysieren. Dies veranlasste ihn, Alternativen zu kostenpflichtigen API-Lösungen (Claude, Gemini, OpenAI) oder Hardware-Käufen zu erkunden.
Entwicklung der Lösung
Nach der Installation von context7mcp bewertete er lokale Sprachmodelle und entschied sich für Qwen2.5 VL. Erste Versuche mit integrierten Fähigkeiten scheiterten an Problemen mit der Modellnamen-Akzeptanz und der Ollama-Integration. Der Durchbruch gelang durch systematisches Testen: Bilder über API-Aufrufe an Ollama senden, Antworten auslesen und sowohl Bash- als auch Python-Skripte zur Prozessabwicklung erstellen.
Implementierungsdetails
- Umgebung: Windows 11 mit Ubuntu WSL
- LLM-Backend: Ollama
- Ausgewähltes Modell: Qwen2.5 VL
- Integrationsmethode: API-Aufrufe an Ollama
- Erstellte Skripte: Bash- und Python-Versionen
Die benutzerdefinierte Fähigkeit registriert sich nativ in OpenClaw und kann mit Befehlen wie „analysiere dieses Bild“ oder „schau dir dieses Foto an“ aufgerufen werden, wobei detaillierte und genaue Antworten zurückgegeben werden. Der Entwickler merkt an, dass zukünftige Verbesserungen mit kleineren Qwen3/3.5VL-Modellen die Leistung weiter steigern könnten.
Trotz Herausforderungen wie mehrfachen Neuinstallationen und Frustrationen mit unvollständigen Open-Source-Tools beschreibt der Entwickler die Erfahrung als Erschaffung eines „selbstkorrigierenden, sich selbst verbessernden Organismus“ und bleibt beeindruckt vom Potenzial von OpenClaw für die Entwicklung benutzerdefinierter Fähigkeiten.
📖 Read the full source: r/openclaw
👀 Siehe auch

Tägliche Nutzungsaufteilung von Claude und ChatGPT aus der Erfahrung eines Entwicklers
Ein Entwickler teilt seine fünfjährige Workflow-Aufteilung: Claude glänzt bei langen Texten, Dokumentenanalyse mit 200k Kontext, nuancierten Vergleichen und Reiseplanung, während ChatGPT für schnelle Antworten, Bildgenerierung mit DALL-E, benutzerdefinierte GPTs und Excel-/Code-Schnipsel bevorzugt wird.

"Erstellung eines KI-Code-Überprüfungs-CLI mit Claude: Ein unkonventioneller Weg"
GrandCru ist ein CLI-Tool zur Code-Überprüfung, das von einem ehemaligen Militärangehörigen unter Verwendung von Claude AI entwickelt wurde. Es bietet ein zweikanaliges Zod-Schema für technisches Feedback und kreative Prosa.

Claude Code Agents Orchestrator Pipeline: Arbeitswarteschlangen, Agenten-Erzeugung, Verifikationsschleusen
Ein Reddit-Beitrag aus r/clawdbot erläutert, wie Claude-Code-Agenten einen KI-gesteuerten Shop betreiben und dabei Design, Marketing, QA und Betrieb 30-mal täglich abwickeln. Er verweist auf Episode 9 einer Blogserie, die die Orchestrator-Pipeline in der Produktion erklärt, einschließlich Problemen, die in Demos nicht gezeigt werden.

Übersetze ins Deutsche: Claude Sonnet 4.6 Bewertet Fehlermeldungen von vier Qwen3.5-Lokalen Modellen
Ein Entwickler testete vier Qwen3.5-Varianten, indem er sie Bug-Reports für ein iOS-Spielproblem generieren ließ, und ließ dann Claude Sonnet 4.6 die Berichte bewerten. Die Modelle identifizierten korrekt einen Swift-Bug, bei dem die Ränder von Ausrüstung ihre Farbe nicht zurücksetzen, aber der Testcode hatte Kompilierungsprobleme.