Cull: Curación Open Source de Datasets para Imágenes IA

Cull es un motor de curación automática para conjuntos de datos de imágenes de IA, creado y mantenido por u/Compunerd3. Automatiza todo el proceso: extracción, clasificación, etiquetado y organización, generando una carpeta de imágenes clasificadas con prompts de SD listos para entrenamiento LoRA o fine-tuning.

Proceso Completo

Extracción: Soporta Civitai (.com y .red), X/Twitter, Reddit, Discord y cualquier URL que soporte gallery-dl: Pixiv, DeviantArt, familia booru, ArtStation, Tumblr, FurAffinity/e621, Imgur, Flickr y ~340 más.
Cola: Cada imagen y su prompt fuente se colocan en una cola local. Deduplicación por fuente, sin base de datos.
Clasificación: Utiliza un modelo de lenguaje visual a través de múltiples instancias de LM Studio (local) o Groq (nube), o cualquier endpoint compatible con OpenAI. Un esquema JSON estricto de 17 campos garantiza una salida estructurada.
Organización: Las imágenes seleccionadas van a carpetas por categoría con un archivo .txt de prompt y un registro de auditoría .vision.json. Dos filtros de puntuación (calidad y relevancia del tema) ajustables en la interfaz.
Panel de control: Interfaz Flask + Alpine.js con inicio/detención, activación de fuentes, galería, editor de prompts, exportación ZIP y estadísticas por fuente.

Casos de Uso

El autor usó Cull para un conjunto de datos LoRA de 300 imágenes y un conjunto de fine-tuning de 100,000 imágenes. Define un tema (por ejemplo, "Influencer Femenina" o {artist} style art), activa AUTO_CAPTION_ENABLED y déjalo funcionar. Para archivos sin prompts, apunta LOCAL_IMPORT_DIR a una carpeta de JPEGs, desactiva el requisito de prompt y activa el etiquetado automático: cada imagen recibe un prompt SD, etiquetas booru o un pie de foto en lenguaje natural.

Detalles Técnicos

Módulo de visión enchufable: Subclase BaseVisionWorker, regístrarlo. Dos endpoints de LM Studio se ejecutan en paralelo; un worker de keepalive envía pings cada 15s para evitar descargas inactivas; descargador de inactividad opcional para liberar VRAM.
Integración con asistentes de IA: Incluye un paquete de habilidades para Claude Code en .claude/skills/ (cull-helper, lmstudio-vision, metadata-schema) y tres subagentes: funciona con Claude Code, Cursor, Aider y Codex.
Autoactualizador: Notificación en el panel, haz clic en Actualizar, descarga desde origin/main y reinicia.
Tecnologías: Python 3.10+, Flask, Alpine.js, Pillow, Playwright (scraper de X), gallery-dl. Máquina única, sin Redis, sin base de datos, sin Docker.
Licencia: MIT.

Hoja de Ruta

Planeado: más backends de workers de visión, mejora de la interfaz de reencolado, CLI headless pequeña, extracción y clasificación de video.

Repositorio: https://github.com/tlennon-ie/cull | Capturas: https://imgur.com/a/kSvsAW9

📖 Leer la fuente completa: r/LocalLLaMA

Cull: Motor de código abierto para la curación de conjuntos de datos en pipelines de imágenes de IA

Proceso Completo

Casos de Uso

Detalles Técnicos

Hoja de Ruta

👀 Ver también

Herramienta de Navegador de Código Abierto para Probar Servidores MCP Sin Instalación

OpenTabs: Servidor MCP con más de 100 complementos para acceder a herramientas de IA basadas en navegador.

Brainstorm MCP Server: Permite que Claude Consulte a Otros LLMs para Obtener Mejores Respuestas

Claude Code a escala: Cómo la búsqueda agéntica evita los modos de fallo de RAG en grandes bases de código