VOID: Modelo de Netflix para Eliminar Objetos y sus Interacciones en Video

Qué hace VOID

VOID elimina objetos de los videos junto con todas las interacciones que inducen en la escena — no solo efectos secundarios como sombras y reflejos, sino interacciones físicas como objetos que caen cuando se elimina una persona.

Requisitos técnicos

Requiere una GPU con 40GB+ de VRAM (por ejemplo, A100)
Basado en CogVideoX-Fun-V1.5-5b-InP
Afinado para restauración de video con condicionamiento de máscara cuádruple consciente de interacciones
La máscara cuádruple es una máscara de 4 valores que codifica: objeto principal (eliminar), regiones superpuestas, regiones afectadas (objetos que caen, elementos desplazados) y fondo (conservar)
Resolución: 384x672 (predeterminado)
Máximo de fotogramas: 197
Programador: DDIM
Precisión: BF16 con cuantización FP8 para eficiencia de memoria

Archivos del modelo

void_pass1.safetensors - Modelo base de restauración (requerido)
void_pass2.safetensors - Refinamiento de ruido deformado para consistencia temporal (opcional)

El Paso 1 es suficiente para la mayoría de los videos. El Paso 2 agrega inicialización latente deformada por flujo óptico para mejorar la consistencia temporal en clips más largos.

Inicio rápido

El cuaderno incluido maneja la configuración, descarga los modelos, ejecuta la inferencia en un video de muestra y muestra el resultado.

git clone https://github.com/netflix/void-model.git
cd void-model

Uso de CLI

# Instalar dependencias pip install -r requirements.txt Descargar el modelo base huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP --local-dir ./CogVideoX-Fun-V1.5-5b-InP Descargar puntos de control de VOID huggingface-cli download netflix/void-model --local-dir . Ejecutar inferencia del Paso 1 en una muestra

python inference/cogvideox_fun/predict_v2v.py --config config/quadmask_cogvideox.py --config.data.data_rootdir= "./sample" --config.experiment.run_seqs= "lime" --config.experiment.save_path= "./outputs" --config.video_model.transformer_path= "./void_pass1.safetensors"

Formato de entrada

Cada video necesita tres archivos en una carpeta:

input_video.mp4 - video fuente
quadmask_0.mp4 - máscara de 4 valores (0=eliminar, 63=superponer, 127=afectado, 255=conservar)
prompt.json - {"bg": "descripción de la escena después de la eliminación"}

El repositorio incluye una canalización de generación de máscaras (VLM-MASK-REASONER/) que crea máscaras cuádruples a partir de videos sin procesar usando SAM2 + Gemini.

Detalles del entrenamiento

Entrenado con videos contrafactuales emparejados generados de dos fuentes: HUMOTO (interacciones humano-objeto renderizadas en Blender con simulación física) y Kubric (interacciones solo de objetos usando Google Scanned Objects)
El entrenamiento se ejecutó en 8x GPUs A100 80GB usando DeepSpeed ZeRO Stage 2

Arquitectura

Base: CogVideoX 3D Transformer (5B parámetros)
Entrada: Video + máscara cuádruple + indicación de texto que describe la escena después de la eliminación

📖 Leer la fuente completa: HN AI Agents

Netflix lanza VOID: Modelo de Eliminación de Objetos e Interacciones en Video en Hugging Face

Qué hace VOID

Requisitos técnicos

Archivos del modelo

Inicio rápido

Uso de CLI

Descargar el modelo base

Descargar puntos de control de VOID

Ejecutar inferencia del Paso 1 en una muestra

Formato de entrada

Detalles del entrenamiento

Arquitectura

👀 Ver también

MCP Server conecta Claude Code/Desktop a Apple Music — Listas de reproducción, Búsqueda, Análisis de perfil

Código de Claude de código abierto, ingeniería inversa realizada usando Claude

obsidian-mcp: Servidor MCP consciente del grafo para Claude con 25 herramientas orientadas a bóvedas grandes

Sovr MCP Proxy agrega una capa de seguridad para prevenir comandos destructivos de LLM.