Cull: Motor de código abierto para la curación de conjuntos de datos en pipelines de imágenes de IA

Cull es un motor de curación automática para conjuntos de datos de imágenes de IA, creado y mantenido por u/Compunerd3. Automatiza todo el proceso: extracción, clasificación, etiquetado y organización, generando una carpeta de imágenes clasificadas con prompts de SD listos para entrenamiento LoRA o fine-tuning.
Proceso Completo
- Extracción: Soporta Civitai (.com y .red), X/Twitter, Reddit, Discord y cualquier URL que soporte gallery-dl: Pixiv, DeviantArt, familia booru, ArtStation, Tumblr, FurAffinity/e621, Imgur, Flickr y ~340 más.
- Cola: Cada imagen y su prompt fuente se colocan en una cola local. Deduplicación por fuente, sin base de datos.
- Clasificación: Utiliza un modelo de lenguaje visual a través de múltiples instancias de LM Studio (local) o Groq (nube), o cualquier endpoint compatible con OpenAI. Un esquema JSON estricto de 17 campos garantiza una salida estructurada.
- Organización: Las imágenes seleccionadas van a carpetas por categoría con un archivo .txt de prompt y un registro de auditoría .vision.json. Dos filtros de puntuación (calidad y relevancia del tema) ajustables en la interfaz.
- Panel de control: Interfaz Flask + Alpine.js con inicio/detención, activación de fuentes, galería, editor de prompts, exportación ZIP y estadísticas por fuente.
Casos de Uso
El autor usó Cull para un conjunto de datos LoRA de 300 imágenes y un conjunto de fine-tuning de 100,000 imágenes. Define un tema (por ejemplo, "Influencer Femenina" o {artist} style art), activa AUTO_CAPTION_ENABLED y déjalo funcionar. Para archivos sin prompts, apunta LOCAL_IMPORT_DIR a una carpeta de JPEGs, desactiva el requisito de prompt y activa el etiquetado automático: cada imagen recibe un prompt SD, etiquetas booru o un pie de foto en lenguaje natural.
Detalles Técnicos
- Módulo de visión enchufable: Subclase
BaseVisionWorker, regístrarlo. Dos endpoints de LM Studio se ejecutan en paralelo; un worker de keepalive envía pings cada 15s para evitar descargas inactivas; descargador de inactividad opcional para liberar VRAM. - Integración con asistentes de IA: Incluye un paquete de habilidades para Claude Code en
.claude/skills/(cull-helper, lmstudio-vision, metadata-schema) y tres subagentes: funciona con Claude Code, Cursor, Aider y Codex. - Autoactualizador: Notificación en el panel, haz clic en Actualizar, descarga desde origin/main y reinicia.
- Tecnologías: Python 3.10+, Flask, Alpine.js, Pillow, Playwright (scraper de X), gallery-dl. Máquina única, sin Redis, sin base de datos, sin Docker.
- Licencia: MIT.
Hoja de Ruta
Planeado: más backends de workers de visión, mejora de la interfaz de reencolado, CLI headless pequeña, extracción y clasificación de video.
Repositorio: https://github.com/tlennon-ie/cull | Capturas: https://imgur.com/a/kSvsAW9
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Trepan: Auditor de Seguridad Local de VS Code para Código Generado por IA
Trepan es una extensión de código abierto para VS Code que actúa como guardián de seguridad para sugerencias de código generadas por IA. Utiliza Ollama para ejecutar auditorías de seguridad locales contra reglas específicas del proyecto en un archivo .trepan/system_rules.md.

Problemas y Soluciones de Compactación de Sesiones de Claude AI
La compactación predeterminada en las sesiones de Claude AI puede degradar la precisión de recuperación de ~9.75/10 a ~5/10, causando alucinaciones. El usuario probó con 418K tokens y encontró que la compactación manual usando Opus mantiene la precisión mientras que la compactación predeterminada falla.

Máquina Virtual Lógica: Un Sistema Basado en Prompts para Detener los Colapsos del Razonamiento en LLM
Un investigador ha desarrollado un prompt de Máquina Virtual Lógica (LVM) que obliga a los LLMs a detenerse y reportar modos de colapso específicos cuando encuentran paradojas o desvíos en el razonamiento, basándose en una única ley de estabilidad: K(σ) ⇒ K(β(σ)). El prompt es independiente del sustrato y funciona en modelos como Grok y Claude.

HF Viewer: Visualice instantáneamente cualquier gráfico de modelo de Hugging Face
HF Viewer es una herramienta basada en navegador que renderiza un gráfico de arquitectura interactivo para cualquier modelo de Hugging Face. Pega una URL o nombre de repositorio, inspecciona el gráfico sin configuración local.