Cull: Open-Source Dataset Curation Engine für KI-Bildpipelines

✍️ OpenClawRadar📅 Veröffentlicht: 10. Mai 2026🔗 Source
Cull: Open-Source Dataset Curation Engine für KI-Bildpipelines
Ad

Cull ist eine maschinelle Kuratierungs-Engine für KI-Bilddatensätze, entwickelt und gepflegt von u/Compunerd3. Sie automatisiert die gesamte Pipeline: Scraping, Klassifizierung, Beschriftung und Sortierung – und gibt einen Ordner mit priorisierten Bildern und SD-Prompts aus, die für LoRA- oder Feintuning-Training bereit sind.

End-to-End-Pipeline

  • Scraping: Unterstützt Civitai (.com und .red), X/Twitter, Reddit, Discord und jede URL, die gallery-dl unterstützt – Pixiv, DeviantArt, Booru-Familie, ArtStation, Tumblr, FurAffinity/e621, Imgur, Flickr und etwa 340 weitere.
  • Warteschlange: Jedes Bild plus Quell-Prompt wird in eine lokale Warteschlange eingereiht. Deduplizierung pro Quelle, keine Datenbank.
  • Klassifizierung: Nutzt ein Vision-Language-Modell über mehrere LM Studio-Instanzen (lokal) oder Groq (Cloud) – jeder OpenAI-kompatible Endpunkt. Ein strenges 17-Feld-JSON-Schema gewährleistet strukturierte Ausgabe.
  • Sortierung: Behaltene Bilder landen in Kategorie-Ordnern mit einer .txt-Prompt-Datei und einer .vision.json-Prüfdatei. Zwei Bewertungsschwellen (Qualität + Themenrelevanz) sind in der UI einstellbar.
  • Dashboard: Flask + Alpine.js UI mit Start/Stopp, Quellschaltern, Galerie, Prompt-Editor, ZIP-Export und Quell-Statistiken.

Anwendungsfälle

Der Autor verwendete Cull für einen 300-Bilder-LoRA und einen 100.000-Bilder-Feintuning-Datensatz. Thema festlegen (z.B. "Female Influencer" oder {artist} style art), AUTO_CAPTION_ENABLED einschalten und laufen lassen. Für Archive ohne Prompts zeige man auf LOCAL_IMPORT_DIR einen Ordner mit JPEGs, schalte die Prompt-Anforderung aus und aktiviere die automatische Beschriftung – jedes Bild erhält einen SD-Prompt, Booru-Tags oder eine natürlichsprachliche Beschriftung.

Ad

Technische Details

  • Vision-Worker austauschbar: BaseVisionWorker ableiten, registrieren. Zwei LM Studio-Endpunkte laufen parallel; ein Keepalive-Worker pingt alle 15 Sekunden, um Leerlauf-Entladen zu vermeiden; optionaler Idle-Unloader gibt VRAM frei.
  • KI-Assistenten-Integration: Wird mit Claude Code Skill-Bundle in .claude/skills/ (cull-helper, lmstudio-vision, metadata-schema) und drei Sub-Agenten ausgeliefert – funktioniert mit Claude Code, Cursor, Aider, Codex.
  • Selbstaktualisierung: Toast im Dashboard, Klick auf Update, zieht von origin/main und startet neu.
  • Stack: Python 3.10+, Flask, Alpine.js, Pillow, Playwright (X-Scraper), gallery-dl. Einzelne Maschine, kein Redis, keine DB, kein Docker.
  • Lizenz: MIT.

Roadmap

Geplant: Weitere Vision-Worker-Backends, verbesserte Wiedereinreihungs-UI, kleine Headless-CLI, Video-Scraping und Klassifizierung.

Repository: https://github.com/tlennon-ie/cull | Screenshots: https://imgur.com/a/kSvsAW9

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch

Open-Source SwiftUI-Testfunktion für Claude Code nutzt Computer Use zur visuellen App-Testung
Werkzeuge

Open-Source SwiftUI-Testfunktion für Claude Code nutzt Computer Use zur visuellen App-Testung

Eine Open-Source-Fähigkeit für Claude Code namens /ios-test testet SwiftUI-Apps visuell mithilfe der Computer-Use-Fähigkeit. Der Agent findet .xcodeproj-Dateien, baut die App in einem Simulator und navigiert dann durch jeden Bildschirm, tippt auf Buttons und folgt Links wie ein echter Benutzer.

OpenClawRadar
Hollow AgentOS reduziert den Claude-Code-Token-Verbrauch um 68,5 % mit einem JSON-nativen Betriebssystem für KI-Agenten.
Werkzeuge

Hollow AgentOS reduziert den Claude-Code-Token-Verbrauch um 68,5 % mit einem JSON-nativen Betriebssystem für KI-Agenten.

Hollow AgentOS ist ein JSON-natives Betriebssystem für KI-Agenten, das den Token-Verbrauch von Claude Code um 68,5 % reduziert, indem es ineffiziente Shell-Befehl-Overheads eliminiert. Es integriert sich über MCP in Claude Code, führt lokale Inferenz über Ollama aus und ist unter der MIT-Lizenz verfügbar.

OpenClawRadar
Google veröffentlicht Sashiko: KI-Code-Review-Agent für Linux-Kernel-Patches
Werkzeuge

Google veröffentlicht Sashiko: KI-Code-Review-Agent für Linux-Kernel-Patches

Google-Ingenieure haben Sashiko quelloffen gemacht, ein agentisches KI-Code-Review-System, das für den Linux-Kernel entwickelt wurde. Es fand 53 % der Fehler in einem ungefilterten Satz von 1.000 kürzlichen Upstream-Problemen, die von menschlichen Prüfern übersehen wurden.

OpenClawRadar
Ein-Befehl-Docker-Setup für OpenClaw mit Vollverschlüsselung und Überwachung
Werkzeuge

Ein-Befehl-Docker-Setup für OpenClaw mit Vollverschlüsselung und Überwachung

Ein Docker-Setup für OpenClaw, das Anleitungen zur Vollverschlüsselung bietet, Tini als PID 1 nutzt, integrierte Überwachungstools enthält und Daten als Klartextdateien auf dem Host speichert. Die Bereitstellung erfordert nur zwei Befehle: git clone und ./shell.

OpenClawRadar