OpenClaw Bildanalyse mit lokalen Modellen: Qwen2.5 VL API

Ein Entwickler dokumentierte seinen Prozess zur Erstellung einer benutzerdefinierten Bildanalyse-Fähigkeit für OpenClaw unter ausschließlicher Verwendung kostenloser, lokaler Tools ohne API-Kosten.

Einrichtung und erste Herausforderungen

Der Entwickler betreibt OpenClaw auf Windows 11 über Ubuntu WSL mit Ollama als LLM-Backend. Er stieß auf Einschränkungen bei der Bildverarbeitung der WebUI – obwohl er einen Upload-Ordner erstellte, konnte das System nur Dateiinformationen lesen, aber keine Bildinhalte analysieren. Dies veranlasste ihn, Alternativen zu kostenpflichtigen API-Lösungen (Claude, Gemini, OpenAI) oder Hardware-Käufen zu erkunden.

Entwicklung der Lösung

Nach der Installation von context7mcp bewertete er lokale Sprachmodelle und entschied sich für Qwen2.5 VL. Erste Versuche mit integrierten Fähigkeiten scheiterten an Problemen mit der Modellnamen-Akzeptanz und der Ollama-Integration. Der Durchbruch gelang durch systematisches Testen: Bilder über API-Aufrufe an Ollama senden, Antworten auslesen und sowohl Bash- als auch Python-Skripte zur Prozessabwicklung erstellen.

Implementierungsdetails

Umgebung: Windows 11 mit Ubuntu WSL
LLM-Backend: Ollama
Ausgewähltes Modell: Qwen2.5 VL
Integrationsmethode: API-Aufrufe an Ollama
Erstellte Skripte: Bash- und Python-Versionen

Die benutzerdefinierte Fähigkeit registriert sich nativ in OpenClaw und kann mit Befehlen wie „analysiere dieses Bild“ oder „schau dir dieses Foto an“ aufgerufen werden, wobei detaillierte und genaue Antworten zurückgegeben werden. Der Entwickler merkt an, dass zukünftige Verbesserungen mit kleineren Qwen3/3.5VL-Modellen die Leistung weiter steigern könnten.

Trotz Herausforderungen wie mehrfachen Neuinstallationen und Frustrationen mit unvollständigen Open-Source-Tools beschreibt der Entwickler die Erfahrung als Erschaffung eines „selbstkorrigierenden, sich selbst verbessernden Organismus“ und bleibt beeindruckt vom Potenzial von OpenClaw für die Entwicklung benutzerdefinierter Fähigkeiten.

📖 Read the full source: r/openclaw

Entwicklung benutzerdefinierter Bildanalysefähigkeiten in OpenClaw mit lokalen Modellen

Einrichtung und erste Herausforderungen

Entwicklung der Lösung

Implementierungsdetails

👀 Siehe auch

Claude Artifacts als Präsentations-Builder: Vollständiger Kontext + Marken-Assets

Entwickler schickt 6 PRs vom Handy auf einer Party — Agenten erledigten die Arbeit

Entwickler baut Paartherapie-App mit Claude und teilt Einblicke in Prompt Engineering

Claude Code vs Codex: Ein Build-Workflow im Vergleich