Cull: Mecanismo de Curadoria de Conjuntos de Dados de Código Aberto para Pipelines de Imagens de IA

Cull é um mecanismo de curadoria automatizado para conjuntos de dados de imagens de IA, desenvolvido e mantido por u/Compunerd3. Ele automatiza todo o pipeline: coleta, classificação, legendagem e organização — produzindo uma pasta de imagens triadas com prompts SD prontos para treinamento LoRA ou ajuste fino.
Pipeline Completo
- Coleta: Suporta Civitai (.com e .red), X/Twitter, Reddit, Discord e qualquer URL que o gallery-dl suporte — Pixiv, DeviantArt, família booru, ArtStation, Tumblr, FurAffinity/e621, Imgur, Flickr e ~340 outros.
- Fila: Cada imagem + prompt de origem é colocado em uma fila local. Dedup por fonte, sem banco de dados.
- Classificação: Usa um modelo de visão-linguagem através de várias instâncias do LM Studio (local) ou Groq (nuvem) — qualquer endpoint compatível com OpenAI. Esquema JSON estrito de 17 campos garante saída estruturada.
- Organização: As imagens aprovadas vão para pastas de categoria com um arquivo .txt de prompt e um registro de auditoria .vision.json. Dois limites de pontuação (qualidade + relevância do tópico) ajustáveis na interface.
- Painel: Interface Flask + Alpine.js com iniciar/parar, alternância de fontes, galeria, editor de prompts, exportação ZIP e estatísticas por fonte.
Casos de Uso
O autor usou o Cull para um LoRA de 300 imagens e um conjunto de dados de ajuste fino de 100.000 imagens. Defina o tópico (ex.: "Influenciadora Feminina" ou {artist} style art), ative AUTO_CAPTION_ENABLED e deixe rodando. Para arquivos sem prompts, aponte LOCAL_IMPORT_DIR para uma pasta de JPEGs, desative a exigência de prompt e ative a legendagem automática — cada imagem recebe um prompt SD, tags booru ou legenda em linguagem natural.
Detalhes Técnicos
- Worker de visão plugável: Subclasse
BaseVisionWorker, registre. Dois endpoints do LM Studio rodam em paralelo; worker keepalive pinga a cada 15s para evitar descarregamento ocioso; descarregador ocioso opcional para liberar VRAM. - Integração com assistente IA: Inclui pacote de habilidades Claude Code em
.claude/skills/(cull-helper, lmstudio-vision, metadata-schema) e três subagentes — funciona com Claude Code, Cursor, Aider, Codex. - Auto-atualização: Notificação no painel, clique em Atualizar, puxa do origin/main e reinicia.
- Stack: Python 3.10+, Flask, Alpine.js, Pillow, Playwright (scraper X), gallery-dl. Máquina única, sem Redis, sem BD, sem Docker.
- Licença: MIT.
Roteiro
Planejado: mais backends de worker de visão, interface de reenfila melhorada, CLI headless pequena, coleta e classificação de vídeo.
Repositório: https://github.com/tlennon-ie/cull | Capturas de tela: https://imgur.com/a/kSvsAW9
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

ProofShot CLI Dá aos Agentes de Codificação IA Capacidades de Verificação de Navegador
ProofShot é uma ferramenta CLI de código aberto que permite que agentes de IA de codificação verifiquem recursos de UI gravando sessões do navegador, capturando screenshots e coletando erros do console. Funciona com qualquer agente que possa executar comandos shell e gera relatórios HTML autônomos para revisão humana.

Operador OpenClaw Kubernetes com Suporte Embarcado Ollama
Um membro da comunidade criou um operador OpenClaw Kubernetes que inclui suporte embutido para Ollama, permitindo que agentes de IA sejam executados com modelos locais no mesmo namespace. A configuração inclui comandos de instalação, detalhes de configuração para modelos Ollama locais e na nuvem, e instruções de acesso ao painel.

A ferramenta Claude-context-lint audita a sobrecarga de tokens em projetos Claude Code.
Uma nova ferramenta chamada claude-context-lint analisa projetos do Claude Code para mostrar quanto da janela de contexto é consumida por arquivos CLAUDE.md, habilidades, servidores MCP e prompts do sistema antes da entrada do usuário. A ferramenta fornece recomendações específicas para reduzir o uso de tokens.

Atoo Studio: Espaço de Trabalho de Código Aberto para Gerenciar Fluxos de Trabalho Multi-Projeto Claude
O Atoo Studio é um espaço de trabalho de código aberto criado para resolver o caos de terminais e abas ao usar o Claude Code em vários projetos. Ele introduz o fork de sessões como ramificações do Git e permite a continuidade entre Claude Code, Codex CLI e Gemini CLI.