VOID: 넷플릭스 허깅 페이스 공개 비디오 객체 삭제 모델

VOID의 기능

VOID는 비디오에서 객체와 함께 장면에 유발하는 모든 상호작용을 제거합니다 — 그림자와 반사와 같은 부수적 효과뿐만 아니라, 사람이 제거될 때 물체가 떨어지는 것과 같은 물리적 상호작용도 포함합니다.

기술 요구사항

40GB 이상의 VRAM이 탑재된 GPU 필요 (예: A100)
CogVideoX-Fun-V1.5-5b-InP 기반 구축
상호작용 인식 쿼드마스크 조건화를 통한 비디오 인페인팅을 위해 미세 조정됨
쿼드마스크는 4가지 값을 인코딩하는 마스크입니다: 주요 객체(제거), 겹치는 영역, 영향받는 영역(떨어지는 물체, 이동된 아이템), 배경(유지)
해상도: 384x672 (기본값)
최대 프레임: 197
스케줄러: DDIM
정밀도: 메모리 효율성을 위한 BF16 및 FP8 양자화

모델 파일

void_pass1.safetensors - 기본 인페인팅 모델 (필수)
void_pass2.safetensors - 시간적 일관성을 위한 워프 노이즈 정제 (선택 사항)

Pass 1은 대부분의 비디오에 충분합니다. Pass 2는 더 긴 클립에서 향상된 시간적 일관성을 위해 광학 흐름 워프 잠재 초기화를 추가합니다.

빠른 시작

포함된 노트북은 설정을 처리하고, 모델을 다운로드하며, 샘플 비디오에서 추론을 실행하고 결과를 표시합니다.

git clone https://github.com/netflix/void-model.git
cd void-model

CLI 사용법

# 의존성 설치 pip install -r requirements.txt 기본 모델 다운로드 huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP --local-dir ./CogVideoX-Fun-V1.5-5b-InP VOID 체크포인트 다운로드 huggingface-cli download netflix/void-model --local-dir . 샘플에서 Pass 1 추론 실행

python inference/cogvideox_fun/predict_v2v.py --config config/quadmask_cogvideox.py --config.data.data_rootdir= "./sample" --config.experiment.run_seqs= "lime" --config.experiment.save_path= "./outputs" --config.video_model.transformer_path= "./void_pass1.safetensors"

입력 형식

각 비디오는 폴더에 세 개의 파일이 필요합니다:

input_video.mp4 - 소스 비디오
quadmask_0.mp4 - 4값 마스크 (0=제거, 63=겹침, 127=영향받음, 255=유지)
prompt.json - {"bg": "제거 후 장면 설명"}

저장소에는 SAM2 + Gemini를 사용하여 원시 비디오에서 쿼드마스크를 생성하는 마스크 생성 파이프라인(VLM-MASK-REASONER/)이 포함되어 있습니다.

훈련 세부사항

두 가지 소스에서 생성된 쌍을 이루는 반사실적 비디오로 훈련됨: HUMOTO(물리 시뮬레이션을 사용한 Blender에서 렌더링된 인간-객체 상호작용) 및 Kubric(Google Scanned Objects를 사용한 객체 전용 상호작용)
훈련은 DeepSpeed ZeRO Stage 2를 사용하여 8x A100 80GB GPU에서 실행됨

아키텍처

기반: CogVideoX 3D Transformer (50억 매개변수)
입력: 비디오 + 쿼드마스크 + 제거 후 장면을 설명하는 텍스트 프롬프트

📖 Read the full source: HN AI Agents

넷플릭스, 허깅 페이스에 비디오 객체 및 상호작용 삭제 모델 'VOID' 공개

VOID의 기능

기술 요구사항

모델 파일

빠른 시작

CLI 사용법

기본 모델 다운로드

VOID 체크포인트 다운로드

샘플에서 Pass 1 추론 실행

입력 형식

훈련 세부사항

아키텍처

👀 See Also

Monarch v3: NES-Inspired KV Paging for 78% Faster LLM Inference

KubeShark: Claude Code 및 Codex를 위한 쿠버네티스 스킬, 환각 YAML 탐지

클로드는 다른 AI 제공업체에서 이전하기 위한 메모리 가져오기 기능을 추가했습니다.

Anthropic의 클로드 코드 품질 향상을 위한 다중 에이전트 하네스 설계