넷플릭스, 허깅 페이스에 비디오 객체 및 상호작용 삭제 모델 'VOID' 공개

✍️ OpenClawRadar📅 게시일: April 14, 2026🔗 Source
넷플릭스, 허깅 페이스에 비디오 객체 및 상호작용 삭제 모델 'VOID' 공개
Ad

VOID의 기능

VOID는 비디오에서 객체와 함께 장면에 유발하는 모든 상호작용을 제거합니다 — 그림자와 반사와 같은 부수적 효과뿐만 아니라, 사람이 제거될 때 물체가 떨어지는 것과 같은 물리적 상호작용도 포함합니다.

기술 요구사항

  • 40GB 이상의 VRAM이 탑재된 GPU 필요 (예: A100)
  • CogVideoX-Fun-V1.5-5b-InP 기반 구축
  • 상호작용 인식 쿼드마스크 조건화를 통한 비디오 인페인팅을 위해 미세 조정됨
  • 쿼드마스크는 4가지 값을 인코딩하는 마스크입니다: 주요 객체(제거), 겹치는 영역, 영향받는 영역(떨어지는 물체, 이동된 아이템), 배경(유지)
  • 해상도: 384x672 (기본값)
  • 최대 프레임: 197
  • 스케줄러: DDIM
  • 정밀도: 메모리 효율성을 위한 BF16 및 FP8 양자화

모델 파일

  • void_pass1.safetensors - 기본 인페인팅 모델 (필수)
  • void_pass2.safetensors - 시간적 일관성을 위한 워프 노이즈 정제 (선택 사항)

Pass 1은 대부분의 비디오에 충분합니다. Pass 2는 더 긴 클립에서 향상된 시간적 일관성을 위해 광학 흐름 워프 잠재 초기화를 추가합니다.

빠른 시작

포함된 노트북은 설정을 처리하고, 모델을 다운로드하며, 샘플 비디오에서 추론을 실행하고 결과를 표시합니다.

git clone https://github.com/netflix/void-model.git
cd void-model
Ad

CLI 사용법

# 의존성 설치
pip install -r requirements.txt

기본 모델 다운로드

huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP
--local-dir ./CogVideoX-Fun-V1.5-5b-InP

VOID 체크포인트 다운로드

huggingface-cli download netflix/void-model
--local-dir .

샘플에서 Pass 1 추론 실행

python inference/cogvideox_fun/predict_v2v.py
--config config/quadmask_cogvideox.py
--config.data.data_rootdir= "./sample"
--config.experiment.run_seqs= "lime"
--config.experiment.save_path= "./outputs"
--config.video_model.transformer_path= "./void_pass1.safetensors"

입력 형식

각 비디오는 폴더에 세 개의 파일이 필요합니다:

  • input_video.mp4 - 소스 비디오
  • quadmask_0.mp4 - 4값 마스크 (0=제거, 63=겹침, 127=영향받음, 255=유지)
  • prompt.json - {"bg": "제거 후 장면 설명"}

저장소에는 SAM2 + Gemini를 사용하여 원시 비디오에서 쿼드마스크를 생성하는 마스크 생성 파이프라인(VLM-MASK-REASONER/)이 포함되어 있습니다.

훈련 세부사항

  • 두 가지 소스에서 생성된 쌍을 이루는 반사실적 비디오로 훈련됨: HUMOTO(물리 시뮬레이션을 사용한 Blender에서 렌더링된 인간-객체 상호작용) 및 Kubric(Google Scanned Objects를 사용한 객체 전용 상호작용)
  • 훈련은 DeepSpeed ZeRO Stage 2를 사용하여 8x A100 80GB GPU에서 실행됨

아키텍처

  • 기반: CogVideoX 3D Transformer (50억 매개변수)
  • 입력: 비디오 + 쿼드마스크 + 제거 후 장면을 설명하는 텍스트 프롬프트

📖 Read the full source: HN AI Agents

Ad

👀 See Also

Repo 토큰: LLM 컨텍스트 윈도우 인식을 위한 GitHub 액션 토큰 개수 배지 추가
Tools

Repo 토큰: LLM 컨텍스트 윈도우 인식을 위한 GitHub 액션 토큰 개수 배지 추가

Repo Tokens는 tiktoken을 사용하여 코드베이스의 토큰 수를 계산하고 README에 배지를 표시하여 LLM의 컨텍스트 창을 얼마나 채우는지 보여주는 GitHub Action입니다. 배지는 30% 미만은 녹색, 50-70%는 노란색, 70% 이상은 빨간색으로 표시됩니다.

OpenClawRadar
오픈소스 클로드 코드 스킬: 후속 문의를 80% 줄인 /do 파이프라인
Tools

오픈소스 클로드 코드 스킬: 후속 문의를 80% 줄인 /do 파이프라인

한 개발자가 100개 이상의 프리랜스 프로젝트를 진행하며 만든 15개의 Claude Code 스킬을 오픈소스로 공개했습니다. /do 명령어는 5단계 파이프라인(/todo → /dev → /verify-dev → /build → /test → push)을 실행하며, 자동 수정 루프를 통해 2000개 이상의 커밋에서 후속 작업이 80% 줄어들고 코드 품질이 60-65% 향상되었습니다.

OpenClawRadar
DoomVLM: 둠 데스매치에서 비전 언어 모델 테스트를 위한 오픈 소스 도구
Tools

DoomVLM: 둠 데스매치에서 비전 언어 모델 테스트를 위한 오픈 소스 도구

DoomVLM은 이제 단일 Jupyter 노트북으로 오픈 소스화되어 OpenAI 호환 API를 통해 비전 언어 모델이 Doom을 플레이하는 것을 테스트할 수 있게 되었습니다. 이 도구는 최대 4개의 모델이 경쟁할 수 있는 데스매치 모드를 지원하며, 시스템 프롬프트, 도구 설명 및 샘플링 매개변수에 대한 완전한 구성 옵션을 제공합니다.

OpenClawRadar
GodotIQ MCP 서버, AI 코딩 에이전트에 Godot 씬의 공간 이해 기능 제공
Tools

GodotIQ MCP 서버, AI 코딩 에이전트에 Godot 씬의 공간 이해 기능 제공

GodotIQ는 Godot의 2D/3D 장면, 시그널 및 코드 종속성을 에이전트가 진정으로 이해할 수 있게 해주는 MCP 서버입니다. 테스트에서 에이전트는 애셋과 프롬프트만으로 1시간 만에 트윈스틱 서바이버 게임을 자율적으로 제작했습니다.

OpenClawRadar