Cull: AI 이미지 파이프라인을 위한 오픈소스 데이터셋 큐레이션 엔진

✍️ OpenClawRadar📅 게시일: May 10, 2026🔗 Source
Cull: AI 이미지 파이프라인을 위한 오픈소스 데이터셋 큐레이션 엔진
Ad

Cull은 AI 이미지 데이터셋을 위한 머신 큐레이션 엔진으로, u/Compunerd3가 만들고 유지 관리합니다. 스크래핑, 분류, 캡셔닝, 정리를 포함한 전체 파이프라인을 자동화하여 LoRA 또는 파인튠 학습에 바로 사용할 수 있는 SD 프롬프트가 포함된 분류된 이미지 폴더를 출력합니다.

엔드 투 엔드 파이프라인

  • 스크래핑: Civitai(.com 및 .red), X/Twitter, Reddit, Discord, 그리고 gallery-dl이 지원하는 모든 URL(Pixiv, DeviantArt, booru 계열, ArtStation, Tumblr, FurAffinity/e621, Imgur, Flickr 등 약 340개)을 지원합니다.
  • : 각 이미지와 소스 측 프롬프트가 로컬 큐에 추가됩니다. 소스별 중복 제거 기능이 있으며, 데이터베이스는 사용하지 않습니다.
  • 분류: 여러 LM Studio 인스턴스(로컬) 또는 Groq(클라우드)를 통해 비전-언어 모델을 사용하며, OpenAI 호환 엔드포인트도 가능합니다. 엄격한 17개 필드 JSON 스키마로 구조화된 출력을 보장합니다.
  • 정리: 통과된 이미지는 카테고리 폴더에 .txt 프롬프트와 .vision.json 감사 기록과 함께 저장됩니다. 두 가지 점수 게이트(품질 및 주제 관련성)는 UI에서 조정 가능합니다.
  • 대시보드: Flask + Alpine.js UI로 시작/중지, 소스 토글, 갤러리, 프롬프트 편집기, ZIP 내보내기, 소스별 통계를 제공합니다.

사용 사례

작성자는 Cull을 사용하여 300개 이미지 LoRA와 100,000개 이미지 파인튠 데이터셋을 구축했습니다. 주제(예: "Female Influencer" 또는 {artist} style art)를 설정하고 AUTO_CAPTION_ENABLED를 켠 후 기다리면 됩니다. 프롬프트가 없는 아카이브의 경우 LOCAL_IMPORT_DIR을 JPEG 폴더로 지정하고, 프롬프트 요구 사항을 끄고 자동 캡셔닝을 활성화하면 각 이미지에 SD 프롬프트, booru 태그 또는 자연어 캡션이 생성됩니다.

Ad

기술 세부 사항

  • 비전 워커 플러그인 가능: BaseVisionWorker를 서브클래싱하여 등록합니다. 두 개의 LM Studio 엔드포인트가 병렬로 실행되며, keepalive 워커가 15초마다 핑을 보내 유휴 언로드를 방지합니다. 선택적 유휴 언로더로 VRAM을 확보할 수 있습니다.
  • AI 어시스턴트 통합: .claude/skills/에 Claude Code 스킬 번들(cull-helper, lmstudio-vision, metadata-schema)과 세 개의 하위 에이전트가 포함되어 있으며, Claude Code, Cursor, Aider, Codex에서 작동합니다.
  • 자체 업데이트: 대시보드에 토스트 알림이 표시되며, 업데이트를 클릭하면 origin/main에서 가져와 재시작합니다.
  • 스택: Python 3.10+, Flask, Alpine.js, Pillow, Playwright(X 스크래퍼), gallery-dl. 단일 머신, Redis, DB, Docker 불필요.
  • 라이선스: MIT.

로드맵

계획: 더 많은 비전 워커 백엔드, 개선된 재큐 UI, 소형 헤드리스 CLI, 비디오 스크래핑 및 분류.

저장소: https://github.com/tlennon-ie/cull | 스크린샷: https://imgur.com/a/kSvsAW9

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

OpenClaw PARA 기술은 Tiago Forte의 방법을 사용하여 파일을 자동으로 정리합니다.
Tools

OpenClaw PARA 기술은 Tiago Forte의 방법을 사용하여 파일을 자동으로 정리합니다.

한 개발자가 Tiago Forte가 개발한 PARA 방법을 사용하여 파일을 자동으로 정리하는 OpenClaw용 스킬을 오픈소스로 공개했습니다. 이 스킬은 파일, 보고서, 스크립트가 뒤섞여 전혀 정리되지 않은 지저분한 루트 디렉토리 문제를 해결합니다.

OpenClawRadar
연락처: 클로드 코드로 완전히 제작된 3D 해전 게임
Tools

연락처: 클로드 코드로 완전히 제작된 3D 해전 게임

CONTACT는 Claude Code + Opus로 완전히 제작된 3D 해전 게임으로, 7×7×7 부피 큐브, 전술적 특전을 갖춘 크레딧 경제 시스템, 그리고 인간 대 Claude 및 Sonnet 대 Sonnet(지속적 전략 기억 포함) 등 세 가지 게임 모드를 특징으로 합니다.

OpenClawRadar
AI 어시스턴트가 웹 페이지를 가져오는 방법: ChatGPT, Claude, Gemini 등의 Nginx 로그 분석
Tools

AI 어시스턴트가 웹 페이지를 가져오는 방법: ChatGPT, Claude, Gemini 등의 Nginx 로그 분석

한 개발자가 고유한 URL을 프롬프트로 제공하고 Nginx 로그를 모니터링하여 다섯 가지 주요 AI 어시스턴트를 테스트한 결과, 뚜렷한 검색 패턴이 드러났습니다: ChatGPT, Claude, Perplexity는 전용 사용자 에이전트를 사용하는 반면, Gemini는 가져오기 없이 자체 인덱스에서 답변했습니다.

OpenClawRadar
인지과학 기법으로 LLM 창의성 강화: Claude 코드용 /reframe 슬래시 명령어
Tools

인지과학 기법으로 LLM 창의성 강화: Claude 코드용 /reframe 슬래시 명령어

레딧 사용자가 Claude Code용 /reframe 슬래시 명령어를 개발했는데, 이 명령어는 거리-참여 진동이라는 인지과학 기법을 구현하여 세 가지 오픈 웨이트 LLM에서 테스트한 결과 창의적 문제 해결 능력을 40% 향상시켰습니다.

OpenClawRadar