Cull: オープンソースAI画像パイプラインデータセットキュレーションエンジン

Cullは、AI画像データセットのための機械キュレーションエンジンで、u/Compunerd3によって構築・保守されています。スクレイピング、分類、キャプション付与、仕分けのパイプライン全体を自動化し、LoRAやファインチューン学習にすぐに使えるSDプロンプト付きのトリアージ済み画像フォルダを出力します。

エンドツーエンドパイプライン

スクレイピング: Civitai（.comおよび.red）、X/Twitter、Reddit、Discord、およびgallery-dlがサポートするあらゆるURL（Pixiv、DeviantArt、booru系、ArtStation、Tumblr、FurAffinity/e621、Imgur、Flickr、その他約340サイト）に対応。
キュー: 各画像とソース側のプロンプトがローカルキューに投入されます。ソースごとに重複排除を行い、データベースは使用しません。
分類: 複数のLM Studioインスタンス（ローカル）またはGroq（クラウド）を介してビジョン言語モデルを使用——OpenAI互換のエンドポイントなら何でも可。厳格な17フィールドのJSONスキーマにより構造化出力を保証。
仕分け: 保持する画像はカテゴリフォルダに、.txtプロンプトファイルと.vision.json監査レコードとともに格納されます。品質とトピック関連性の2つのスコアゲートがあり、UIで調整可能。
ダッシュボード: Flask + Alpine.jsのUIで、開始/停止、ソースのオン/オフ、ギャラリー、プロンプトエディタ、ZIPエクスポート、ソースごとの統計を提供。

ユースケース

作者はCullを300画像のLoRAと10万画像のファインチューンデータセットに使用しました。トピック（例：「女性インフルエンサー」や{artist} style art）を設定し、AUTO_CAPTION_ENABLEDをオンにすれば、あとは待つだけです。プロンプトがないアーカイブの場合は、LOCAL_IMPORT_DIRをJPEGフォルダに指定し、プロンプト要件をオフにして、自動キャプションをオンにすれば、各画像にSDプロンプト、booruタグ、または自然言語キャプションが付与されます。

技術詳細

ビジョンワーカーのプラグイン化: BaseVisionWorkerをサブクラス化して登録。2つのLM Studioエンドポイントが並行して動作；キープアライブワーカーが15秒ごとにpingを送信してアイドルアンロードを防止；オプションのアイドルアンローダーでVRAMを解放。
AIアシスタント統合: .claude/skills/にClaude Codeスキルバンドル（cull-helper、lmstudio-vision、metadata-schema）と3つのサブエージェントを同梱——Claude Code、Cursor、Aider、Codexで動作。
セルフアップデーター: ダッシュボードにトースト通知が表示され、Updateをクリックするとorigin/mainからプルして再起動。
スタック: Python 3.10+、Flask、Alpine.js、Pillow、Playwright（Xスクレイパー）、gallery-dl。シングルマシン、Redis不要、DB不要、Docker不要。
ライセンス: MIT。