Cull: Движок курирования наборов данных с открытым исходным кодом для конвейеров изображений ИИ

✍️ OpenClawRadar📅 Опубликовано: 10 мая 2026 г.🔗 Source
Cull: Движок курирования наборов данных с открытым исходным кодом для конвейеров изображений ИИ
Ad

Cull — это движок машинной курации для датасетов AI-изображений, созданный и поддерживаемый u/Compunerd3. Он автоматизирует весь конвейер: сбор, классификацию, подпись и сортировку — на выходе получается папка с отобранными изображениями и SD-промптами, готовыми для LoRA или тонкой настройки.

Полный конвейер

  • Сбор: Поддерживает Civitai (.com и .red), X/Twitter, Reddit, Discord и любые URL, которые поддерживает gallery-dl — Pixiv, DeviantArt, booru family, ArtStation, Tumblr, FurAffinity/e621, Imgur, Flickr и ~340 других.
  • Очередь: Каждое изображение + исходный промпт попадают в локальную очередь. Дедупликация по источнику, без базы данных.
  • Классификация: Использует multimodal модель через несколько экземпляров LM Studio (локально) или Groq (облачно) — любой совместимый с OpenAI endpoint. Строгая JSON-схема с 17 полями обеспечивает структурированный вывод.
  • Сортировка: Отобранные изображения попадают в папки по категориям с файлом .txt с промптом и аудитом .vision.json. Два пороговых значения (качество + релевантность теме) настраиваются в интерфейсе.
  • Панель управления: Flask + Alpine.js UI с кнопками старт/стоп, переключателями источников, галереей, редактором промптов, ZIP-экспортом и статистикой по источникам.

Примеры использования

Автор использовал Cull для LoRA из 300 изображений и датасета из 100 000 изображений для тонкой настройки. Укажите тему (например, "Female Influencer" или {artist} style art), включите AUTO_CAPTION_ENABLED и отойдите. Для архивов без промптов укажите LOCAL_IMPORT_DIR на папку с JPEG, отключите требование промпта и включите авто-подпись — каждое изображение получит SD-промпт, booru-теги или подпись на естественном языке.

Ad

Технические детали

  • Подключаемый модуль vision worker: Создайте подкласс BaseVisionWorker и зарегистрируйте его. Два экземпляра LM Studio работают параллельно; keepalive worker пингует каждые 15 секунд, чтобы избежать выгрузки при простое; опциональный idle-unloader освобождает VRAM.
  • Интеграция с AI-ассистентами: Поставляется с набором навыков для Claude Code в .claude/skills/ (cull-helper, lmstudio-vision, metadata-schema) и тремя под-агентами — работает с Claude Code, Cursor, Aider, Codex.
  • Самообновление: Уведомление в панели управления, нажмите Update — обновляется из origin/main и перезапускается.
  • Стек: Python 3.10+, Flask, Alpine.js, Pillow, Playwright (парсер X), gallery-dl. Одна машина, без Redis, без БД, без Docker.
  • Лицензия: MIT.

Планы

Запланировано: больше бэкендов vision worker, улучшенный интерфейс повторной постановки в очередь, компактный headless CLI, сбор и классификация видео.

Репозиторий: https://github.com/tlennon-ie/cull | Скриншоты: https://imgur.com/a/kSvsAW9

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Memento Vault: Локальный инструмент для сохранения контекста в сессиях Claude Code
Инструменты

Memento Vault: Локальный инструмент для сохранения контекста в сессиях Claude Code

Memento Vault — это набор хуков, которые автоматически захватывают транскрипты сессий, оценивают их и сохраняют атомарные заметки в локальном git-репозитории. Он обеспечивает поиск с нулевой стоимостью через BM25 + векторный поиск со средней задержкой 472 мс и вводит релевантный контекст при запуске сессии, при каждом запросе и при чтении файлов.

OpenClawRadar
NEXUS: Открытый уровень координации агентов для OpenClaw
Инструменты

NEXUS: Открытый уровень координации агентов для OpenClaw

NEXUS — это координационный слой, построенный на OpenClaw, который позволяет ИИ-агентам находить друг друга, делегировать задачи и обрабатывать микроплатежи. Он включает реестр агентов, поиск на основе возможностей, оценки доверия и использует протокол A2A от Google и MCP от Anthropic.

OpenClawRadar
Пилотская консоль: Веб-панель управления для администрирования частных сетей ИИ-агентов
Инструменты

Пилотская консоль: Веб-панель управления для администрирования частных сетей ИИ-агентов

Разработчик использовал Claude для создания Pilot Console — веб-интерфейса для управления частными сетями агентов, построенными на Pilot Protocol. Панель управления предоставляет визуальную настройку, подключение агентов, мониторинг флота и API-управление для многозадачных рабочих процессов с агентами.

OpenClawRadar
Graph Compose: Размещенные временные рабочие процессы с визуальным конструктором и искусственным интеллектом
Инструменты

Graph Compose: Размещенные временные рабочие процессы с визуальным конструктором и искусственным интеллектом

Graph Compose — это хостинговая платформа для оркестрации API-воркфлоу на Temporal, позволяющая определять воркфлоу в виде JSON-графов с тремя методами построения: визуальный конструктор React Flow, TypeScript SDK и AI-ассистент, преобразующий обычный английский текст в графы.

OpenClawRadar