Cull: Open-Source Dataset Curation Engine für KI-Bildpipelines

Cull ist eine maschinelle Kuratierungs-Engine für KI-Bilddatensätze, entwickelt und gepflegt von u/Compunerd3. Sie automatisiert die gesamte Pipeline: Scraping, Klassifizierung, Beschriftung und Sortierung – und gibt einen Ordner mit priorisierten Bildern und SD-Prompts aus, die für LoRA- oder Feintuning-Training bereit sind.
End-to-End-Pipeline
- Scraping: Unterstützt Civitai (.com und .red), X/Twitter, Reddit, Discord und jede URL, die gallery-dl unterstützt – Pixiv, DeviantArt, Booru-Familie, ArtStation, Tumblr, FurAffinity/e621, Imgur, Flickr und etwa 340 weitere.
- Warteschlange: Jedes Bild plus Quell-Prompt wird in eine lokale Warteschlange eingereiht. Deduplizierung pro Quelle, keine Datenbank.
- Klassifizierung: Nutzt ein Vision-Language-Modell über mehrere LM Studio-Instanzen (lokal) oder Groq (Cloud) – jeder OpenAI-kompatible Endpunkt. Ein strenges 17-Feld-JSON-Schema gewährleistet strukturierte Ausgabe.
- Sortierung: Behaltene Bilder landen in Kategorie-Ordnern mit einer .txt-Prompt-Datei und einer .vision.json-Prüfdatei. Zwei Bewertungsschwellen (Qualität + Themenrelevanz) sind in der UI einstellbar.
- Dashboard: Flask + Alpine.js UI mit Start/Stopp, Quellschaltern, Galerie, Prompt-Editor, ZIP-Export und Quell-Statistiken.
Anwendungsfälle
Der Autor verwendete Cull für einen 300-Bilder-LoRA und einen 100.000-Bilder-Feintuning-Datensatz. Thema festlegen (z.B. "Female Influencer" oder {artist} style art), AUTO_CAPTION_ENABLED einschalten und laufen lassen. Für Archive ohne Prompts zeige man auf LOCAL_IMPORT_DIR einen Ordner mit JPEGs, schalte die Prompt-Anforderung aus und aktiviere die automatische Beschriftung – jedes Bild erhält einen SD-Prompt, Booru-Tags oder eine natürlichsprachliche Beschriftung.
Technische Details
- Vision-Worker austauschbar:
BaseVisionWorkerableiten, registrieren. Zwei LM Studio-Endpunkte laufen parallel; ein Keepalive-Worker pingt alle 15 Sekunden, um Leerlauf-Entladen zu vermeiden; optionaler Idle-Unloader gibt VRAM frei. - KI-Assistenten-Integration: Wird mit Claude Code Skill-Bundle in
.claude/skills/(cull-helper, lmstudio-vision, metadata-schema) und drei Sub-Agenten ausgeliefert – funktioniert mit Claude Code, Cursor, Aider, Codex. - Selbstaktualisierung: Toast im Dashboard, Klick auf Update, zieht von origin/main und startet neu.
- Stack: Python 3.10+, Flask, Alpine.js, Pillow, Playwright (X-Scraper), gallery-dl. Einzelne Maschine, kein Redis, keine DB, kein Docker.
- Lizenz: MIT.
Roadmap
Geplant: Weitere Vision-Worker-Backends, verbesserte Wiedereinreihungs-UI, kleine Headless-CLI, Video-Scraping und Klassifizierung.
Repository: https://github.com/tlennon-ie/cull | Screenshots: https://imgur.com/a/kSvsAW9
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Open-Source SwiftUI-Testfunktion für Claude Code nutzt Computer Use zur visuellen App-Testung
Eine Open-Source-Fähigkeit für Claude Code namens /ios-test testet SwiftUI-Apps visuell mithilfe der Computer-Use-Fähigkeit. Der Agent findet .xcodeproj-Dateien, baut die App in einem Simulator und navigiert dann durch jeden Bildschirm, tippt auf Buttons und folgt Links wie ein echter Benutzer.

Hollow AgentOS reduziert den Claude-Code-Token-Verbrauch um 68,5 % mit einem JSON-nativen Betriebssystem für KI-Agenten.
Hollow AgentOS ist ein JSON-natives Betriebssystem für KI-Agenten, das den Token-Verbrauch von Claude Code um 68,5 % reduziert, indem es ineffiziente Shell-Befehl-Overheads eliminiert. Es integriert sich über MCP in Claude Code, führt lokale Inferenz über Ollama aus und ist unter der MIT-Lizenz verfügbar.

Google veröffentlicht Sashiko: KI-Code-Review-Agent für Linux-Kernel-Patches
Google-Ingenieure haben Sashiko quelloffen gemacht, ein agentisches KI-Code-Review-System, das für den Linux-Kernel entwickelt wurde. Es fand 53 % der Fehler in einem ungefilterten Satz von 1.000 kürzlichen Upstream-Problemen, die von menschlichen Prüfern übersehen wurden.

Ein-Befehl-Docker-Setup für OpenClaw mit Vollverschlüsselung und Überwachung
Ein Docker-Setup für OpenClaw, das Anleitungen zur Vollverschlüsselung bietet, Tini als PID 1 nutzt, integrierte Überwachungstools enthält und Daten als Klartextdateien auf dem Host speichert. Die Bereitstellung erfordert nur zwei Befehle: git clone und ./shell.