Cull : Moteur Open Source pour Curation d'Images IA

Cull est un moteur de curation automatique pour les ensembles de données d'images IA, créé et maintenu par u/Compunerd3. Il automatise l'ensemble du pipeline : scraping, classification, légendage et tri — produisant un dossier d'images triées avec des prompts SD prêts pour l'entraînement LoRA ou le fine-tuning.

Pipeline de bout en bout

Scraping : Prend en charge Civitai (.com et .red), X/Twitter, Reddit, Discord et toute URL que gallery-dl supporte — Pixiv, DeviantArt, famille booru, ArtStation, Tumblr, FurAffinity/e621, Imgur, Flickr et environ 340 autres.
File d'attente : Chaque image + prompt source est placé dans une file d'attente locale. Déduplication par source, sans base de données.
Classification : Utilise un modèle vision-langage via plusieurs instances LM Studio (local) ou Groq (cloud) — tout endpoint compatible OpenAI. Un schéma JSON strict à 17 champs garantit une sortie structurée.
Tri : Les images conservées vont dans des dossiers de catégories avec un fichier .txt de prompt et un enregistrement d'audit .vision.json. Deux seuils de score (qualité + pertinence thématique) réglables dans l'interface.
Tableau de bord : Interface Flask + Alpine.js avec démarrage/arrêt, activation des sources, galerie, éditeur de prompts, export ZIP et statistiques par source.

Cas d'utilisation

L'auteur a utilisé Cull pour un LoRA de 300 images et un ensemble de fine-tuning de 100 000 images. Définissez un sujet (par exemple « Femme influenceuse » ou {style artiste}), activez AUTO_CAPTION_ENABLED, et laissez faire. Pour les archives sans prompts, pointez LOCAL_IMPORT_DIR vers un dossier de JPEG, désactivez l'exigence de prompt, et activez le légendage automatique — chaque image reçoit un prompt SD, des tags booru ou une légende en langage naturel.

Détails techniques

Worker vision interchangeable : Sous-classez BaseVisionWorker, enregistrez-le. Deux endpoints LM Studio tournent en parallèle ; un worker keepalive ping toutes les 15s pour éviter le déchargement inactif ; déchargeur inactif optionnel pour libérer la VRAM.
Intégration assistant IA : Livré avec un bundle de compétences Claude Code dans .claude/skills/ (cull-helper, lmstudio-vision, metadata-schema) et trois sous-agents — fonctionne avec Claude Code, Cursor, Aider, Codex.
Auto-mise à jour : Toast dans le tableau de bord, cliquez sur Mettre à jour, tire depuis origin/main et relance.
Stack : Python 3.10+, Flask, Alpine.js, Pillow, Playwright (scraper X), gallery-dl. Machine unique, pas de Redis, pas de base de données, pas de Docker.
Licence : MIT.

Feuille de route

Prévu : plus de backends de workers vision, amélioration de l'interface de remise en file d'attente, petit CLI sans tête, scraping et classification de vidéos.

Dépôt : https://github.com/tlennon-ie/cull | Captures d'écran : https://imgur.com/a/kSvsAW9

📖 Lire la source complète : r/LocalLLaMA

Cull : Moteur de curation de jeux de données open source pour les pipelines d'images IA

Pipeline de bout en bout

Cas d'utilisation

Détails techniques

Feuille de route

👀 See Also

Treck : une extension Chrome qui capture les recherches sur le Web et utilise Claude pour générer des documents

Codev : Flux de travail de l'agent IA pour 106 PR en 14 jours

NotebookLM MCP Structuré : Serveur Gratuit Connecte Claude à NotebookLM avec Structuration Automatique des Prompts

Développeur crée un générateur de modèles SaaS .NET avec Claude Code, partage des insights sur le workflow