Cull: Open-Source Dataset Curation Engine für KI-Bildpipelines

Cull ist eine maschinelle Kuratierungs-Engine für KI-Bilddatensätze, entwickelt und gepflegt von u/Compunerd3. Sie automatisiert die gesamte Pipeline: Scraping, Klassifizierung, Beschriftung und Sortierung – und gibt einen Ordner mit priorisierten Bildern und SD-Prompts aus, die für LoRA- oder Feintuning-Training bereit sind.

End-to-End-Pipeline

Scraping: Unterstützt Civitai (.com und .red), X/Twitter, Reddit, Discord und jede URL, die gallery-dl unterstützt – Pixiv, DeviantArt, Booru-Familie, ArtStation, Tumblr, FurAffinity/e621, Imgur, Flickr und etwa 340 weitere.
Warteschlange: Jedes Bild plus Quell-Prompt wird in eine lokale Warteschlange eingereiht. Deduplizierung pro Quelle, keine Datenbank.
Klassifizierung: Nutzt ein Vision-Language-Modell über mehrere LM Studio-Instanzen (lokal) oder Groq (Cloud) – jeder OpenAI-kompatible Endpunkt. Ein strenges 17-Feld-JSON-Schema gewährleistet strukturierte Ausgabe.
Sortierung: Behaltene Bilder landen in Kategorie-Ordnern mit einer .txt-Prompt-Datei und einer .vision.json-Prüfdatei. Zwei Bewertungsschwellen (Qualität + Themenrelevanz) sind in der UI einstellbar.
Dashboard: Flask + Alpine.js UI mit Start/Stopp, Quellschaltern, Galerie, Prompt-Editor, ZIP-Export und Quell-Statistiken.

Anwendungsfälle

Der Autor verwendete Cull für einen 300-Bilder-LoRA und einen 100.000-Bilder-Feintuning-Datensatz. Thema festlegen (z.B. "Female Influencer" oder {artist} style art), AUTO_CAPTION_ENABLED einschalten und laufen lassen. Für Archive ohne Prompts zeige man auf LOCAL_IMPORT_DIR einen Ordner mit JPEGs, schalte die Prompt-Anforderung aus und aktiviere die automatische Beschriftung – jedes Bild erhält einen SD-Prompt, Booru-Tags oder eine natürlichsprachliche Beschriftung.

Technische Details

Vision-Worker austauschbar: BaseVisionWorker ableiten, registrieren. Zwei LM Studio-Endpunkte laufen parallel; ein Keepalive-Worker pingt alle 15 Sekunden, um Leerlauf-Entladen zu vermeiden; optionaler Idle-Unloader gibt VRAM frei.
KI-Assistenten-Integration: Wird mit Claude Code Skill-Bundle in .claude/skills/ (cull-helper, lmstudio-vision, metadata-schema) und drei Sub-Agenten ausgeliefert – funktioniert mit Claude Code, Cursor, Aider, Codex.
Selbstaktualisierung: Toast im Dashboard, Klick auf Update, zieht von origin/main und startet neu.
Stack: Python 3.10+, Flask, Alpine.js, Pillow, Playwright (X-Scraper), gallery-dl. Einzelne Maschine, kein Redis, keine DB, kein Docker.
Lizenz: MIT.