OpenClawでローカルモデルを使用したカスタム画像分析スキルの構築

ある開発者が、APIコストを一切かけずに完全に無料のローカルツールのみを使用して、OpenClaw用のカスタム画像分析スキルを作成するプロセスを記録しました。
セットアップと初期の課題
開発者は、LLMバックエンドとしてOllamaを使用し、Ubuntu WSLを介してWindows 11上でOpenClawを実行しています。WebUIの画像処理に制限があることに直面しました。アップロードフォルダを作成したものの、システムはファイル情報を読み取るだけで、画像の内容を分析することができませんでした。このため、有料APIソリューション(Claude、Gemini、OpenAI)やハードウェア購入以外の代替手段を探求することになりました。
ソリューションの開発
context7mcpをインストールした後、ローカル言語モデルを評価し、Qwen2.5 VLに決定しました。組み込みスキルでの初期の試みでは、モデル名の受け入れやOllamaとの統合に問題が発生しました。突破口は、体系的なテストを通じてもたらされました。API呼び出しで画像をOllamaに送信し、応答を読み取り、プロセスを処理するためのbashスクリプトとPythonスクリプトの両方を作成しました。
実装の詳細
- 環境:Ubuntu WSLを搭載したWindows 11
- LLMバックエンド:Ollama
- 選択モデル:Qwen2.5 VL
- 統合方法:OllamaへのAPI呼び出し
- 作成スクリプト:bash版とPython版
カスタムスキルはOpenClawにネイティブで登録され、「この画像を分析して」や「この写真を見て」などのコマンドで呼び出すことができ、詳細で正確な応答を返します。開発者は、より小型のQwen3/3.5VLモデルを使用した将来の改善により、パフォーマンスがさらに向上する可能性があると指摘しています。
複数回の再インストールや不完全なオープンソースツールへの不満を含む課題にもかかわらず、開発者はこの経験を「自己修復・自己改善する有機体」の創造と表現し、カスタムスキル開発におけるOpenClawの可能性に感銘を受け続けています。
📖 Read the full source: r/openclaw
👀 See Also

OpenClawユーザーがAIエージェントでデートアプリのやり取りを自動化
Redditユーザーが、デートアプリでのスワイプ、会話管理、マッチングフィルタリングを処理するOpenClawエージェントを構築し、1日500回以上のスワイプと、1週間で3倍のマッチ数を報告しました。

Claude Code vs Codex: ビルダーのワークフロー比較
ある開発者が実用的な役割分担を紹介:Claude Codeはクリーンな差分でフォーカスしたリポジトリ作業に、Codexはブラウザ、ドキュメント、アプリテストを含む複雑なクロスツールタスクに適している。

開発者がブラウザ自動化のためにAIエージェントを直接のPlaywrightスクリプトに置き換える
ある開発者がOpenClawを使用してブラウザタスクを自動化した経験を共有し、AIエージェントを使用するよりもシンプルで直接的なアプローチの方が効果的だった事例を紹介しました。

開発者、コーディング経験ゼロから3週間でClaude Codeを使い3,106行のPythonデスクトップアプリを構築
Pythonの知識が全くない開発者が、Claude Codeを使って3週間で3,106行のデスクトップアプリケーションを構築しました。50万字以上の会話を通じて機能をセクションごとに説明しながら進めました。このアプリは、コンテンツの収集、ロギング、メトリクスの追跡、リサーチ機能、ゲーム化されたマイルストーン、スマートフォンからのリモート起動を処理します。