로컬 퍼스트 영화 요약 파이프라인: Whisper + CLIP + Ollama 활용

✍️ OpenClawRadar📅 게시일: May 3, 2026🔗 Source
로컬 퍼스트 영화 요약 파이프라인: Whisper + CLIP + Ollama 활용
Ad

한 개발자가 모든 영화를 내레이션이 포함된 요약 동영상으로 변환하는 자동화 파이프라인을 구축했습니다. 스택은 완전히 로컬 우선입니다: Whisper는 전사를, CLIP은 장면 매칭을, Ollama(또는 OpenAI/Gemini/Anthropic)는 스크립트 생성을, Edge TTS는 음성 해설을, FFmpeg는 렌더링을 담당합니다.

작동 방식

  • 입력: 간단한 웹 UI를 통해 영화 파일을 넣습니다.
  • 전사: Whisper가 대화와 타임스탬프를 추출합니다.
  • 장면 매칭: CLIP이 내러티브와 일치하는 시각적 장면을 식별합니다.
  • 스크립트 생성: Ollama(또는 모든 API 제공업체)가 간결한 요약 스크립트를 작성합니다.
  • 음성 해설 + 렌더링: Edge TTS가 내레이션을 생성하고, FFmpeg가 모든 것을 합성하여 최종 동영상을 만듭니다.

전체 프로세스는 Ollama로 로컬에서 실행되지만, 원격 LLM API(OpenAI, Gemini, Anthropic)를 연결할 수도 있습니다. 총 실행 시간은 약 15분입니다. 수동 편집이 필요하지 않습니다.

대상

자동화된 동영상 생성 파이프라인을 구축하는 개발자, 또는 클라우드 의존성 없이 영화 요약을 일괄 제작하려는 모든 사람.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

프롬프트 명확성, 튜토리얼 및 버그 사냥을 위한 네 가지 무료 Claude 코드 스킬
Tools

프롬프트 명확성, 튜토리얼 및 버그 사냥을 위한 네 가지 무료 Claude 코드 스킬

Apache 2.0 라이선스의 무료 Claude Code 스킬 4가지: prompter (프롬프트 재작성), tutorial-creator (주석이 포함된 코드 워크스루), bug-echo (수정 후 안티패턴 검사), bug-prospector (7가지 분석 렌즈로 출시 전 감사).

OpenClawRadar
🦀
Tools

니들: FFN 전혀 없이 구축된 2600만 파라미터 도구 호출 모델

Needle은 MLP가 없는 26M 파라미터 함수 호출 모델로, 소비자 기기에서 6000 tok/s 프리필과 1200 tok/s 디코드를 달성합니다. 단일 호출 도구 호출에서 FunctionGemma-270M, Qwen-0.6B, Granite-350M, LFM2.5-350M을 능가합니다.

OpenClawRadar
OpenClaw 개발자가 AI 에이전트를 위한 통합 메모리 시스템 구축
Tools

OpenClaw 개발자가 AI 에이전트를 위한 통합 메모리 시스템 구축

한 개발자가 구조화된 사실, 벡터 검색, 엔티티 그래프, 에피소드 타임라인, 계층적 압축, 이벤트 기반 조정을 결합한 15가지 도구 통합 메모리 시스템을 OpenClaw AI 에이전트용으로 구축했습니다. 이 시스템은 클라우드 의존성이나 월별 요금 없이 로컬에서 실행됩니다.

OpenClawRadar
OpenClaw용 로컬 음성-텍스트 변환, Parakeet TDT 0.6b v3 사용
Tools

OpenClaw용 로컬 음성-텍스트 변환, Parakeet TDT 0.6b v3 사용

개발자가 NVIDIA의 Parakeet TDT 0.6b v3 모델을 ONNX를 통해 CPU에서 로컬로 실행하도록 변환하여 25개의 유럽 언어를 지원합니다. 이 모델은 Docker 컨테이너를 통해 OpenAI 호환 API 엔드포인트를 제공하여 OpenClaw와의 오디오 파일 자막 생성 통합을 가능하게 합니다.

OpenClawRadar