Cull: Curadoria Open Source de Imagens para IA

Cull é um mecanismo de curadoria automatizado para conjuntos de dados de imagens de IA, desenvolvido e mantido por u/Compunerd3. Ele automatiza todo o pipeline: coleta, classificação, legendagem e organização — produzindo uma pasta de imagens triadas com prompts SD prontos para treinamento LoRA ou ajuste fino.

Pipeline Completo

Coleta: Suporta Civitai (.com e .red), X/Twitter, Reddit, Discord e qualquer URL que o gallery-dl suporte — Pixiv, DeviantArt, família booru, ArtStation, Tumblr, FurAffinity/e621, Imgur, Flickr e ~340 outros.
Fila: Cada imagem + prompt de origem é colocado em uma fila local. Dedup por fonte, sem banco de dados.
Classificação: Usa um modelo de visão-linguagem através de várias instâncias do LM Studio (local) ou Groq (nuvem) — qualquer endpoint compatível com OpenAI. Esquema JSON estrito de 17 campos garante saída estruturada.
Organização: As imagens aprovadas vão para pastas de categoria com um arquivo .txt de prompt e um registro de auditoria .vision.json. Dois limites de pontuação (qualidade + relevância do tópico) ajustáveis na interface.
Painel: Interface Flask + Alpine.js com iniciar/parar, alternância de fontes, galeria, editor de prompts, exportação ZIP e estatísticas por fonte.

Casos de Uso

O autor usou o Cull para um LoRA de 300 imagens e um conjunto de dados de ajuste fino de 100.000 imagens. Defina o tópico (ex.: "Influenciadora Feminina" ou {artist} style art), ative AUTO_CAPTION_ENABLED e deixe rodando. Para arquivos sem prompts, aponte LOCAL_IMPORT_DIR para uma pasta de JPEGs, desative a exigência de prompt e ative a legendagem automática — cada imagem recebe um prompt SD, tags booru ou legenda em linguagem natural.

Detalhes Técnicos

Worker de visão plugável: Subclasse BaseVisionWorker, registre. Dois endpoints do LM Studio rodam em paralelo; worker keepalive pinga a cada 15s para evitar descarregamento ocioso; descarregador ocioso opcional para liberar VRAM.
Integração com assistente IA: Inclui pacote de habilidades Claude Code em .claude/skills/ (cull-helper, lmstudio-vision, metadata-schema) e três subagentes — funciona com Claude Code, Cursor, Aider, Codex.
Auto-atualização: Notificação no painel, clique em Atualizar, puxa do origin/main e reinicia.
Stack: Python 3.10+, Flask, Alpine.js, Pillow, Playwright (scraper X), gallery-dl. Máquina única, sem Redis, sem BD, sem Docker.
Licença: MIT.

Roteiro

Planejado: mais backends de worker de visão, interface de reenfila melhorada, CLI headless pequena, coleta e classificação de vídeo.

Repositório: https://github.com/tlennon-ie/cull | Capturas de tela: https://imgur.com/a/kSvsAW9

📖 Leia a fonte completa: r/LocalLLaMA

Cull: Mecanismo de Curadoria de Conjuntos de Dados de Código Aberto para Pipelines de Imagens de IA

Pipeline Completo

Casos de Uso

Detalhes Técnicos

Roteiro

👀 See Also

ProofShot CLI Dá aos Agentes de Codificação IA Capacidades de Verificação de Navegador

Operador OpenClaw Kubernetes com Suporte Embarcado Ollama

A ferramenta Claude-context-lint audita a sobrecarga de tokens em projetos Claude Code.

Atoo Studio: Espaço de Trabalho de Código Aberto para Gerenciar Fluxos de Trabalho Multi-Projeto Claude