Ollama VisionでローカルAI画像批評ツールを構築

開発者が、Ollamaを介してローカルビジョンモデルを使用するAI画像批評機能を提供する無料デスクトップアプリケーションをリリースしました。このツールは、クラウドサービスを必要とせずにAI生成画像を分析し、構造化されたフィードバックレポートを生成します。

主な機能

Ollamaビジョンモデルを使用して100％ローカルで実行
デフォルトではllama3.2-visionを使用するが、他のビジョンモデルに切り替え可能
特定のセクションを含むクリーンなレポートを生成
Flux/SD3のアニメスタイル生成と写真リアルな画像の両方に対応

レポート構成

優れている点 - 画像の肯定的な側面
改善の余地がある点 - 強化が必要な領域
クイックスコア - 解剖学、色彩調和、ムードの評価
総合評価 - 評価の根拠とともに
プロンプトアップグレード提案 - 次の生成を改善するためにプロンプトに追加すべき具体的なフレーズ

必要条件

このツールを使用するには、Ollamaが既にインストールされており、ビジョンモデルがプルされている必要があります。開発者は、Ollamaがセットアップされていない場合、このツールは適していないと述べています。

現在の状況とフィードバック要請

開発者はアプリケーションインターフェースと2つの分析例のスクリーンショットを共有しました。実際にビジョンモデルを扱うユーザーから、どのような追加機能が有用かについてフィードバックを求めています。言及されている潜在的な改善点には、より多くのスコアカテゴリ、バッチ処理機能、異なる焦点オプションなどが含まれます。

📖 Read the full source: r/LocalLLaMA