VOID: Novo Modelo de Inpainting da Netflix Remove Objetos de Vídeos

O que o VOID faz

O VOID remove objetos de vídeos juntamente com todas as interações que eles induzem na cena — não apenas efeitos secundários como sombras e reflexos, mas interações físicas como objetos caindo quando uma pessoa é removida.

Requisitos Técnicos

Requer uma GPU com 40GB+ de VRAM (ex.: A100)
Construído sobre CogVideoX-Fun-V1.5-5b-InP
Fine-tuned para inpainting de vídeo com condicionamento quadmask consciente de interações
Quadmask é uma máscara de 4 valores que codifica: objeto primário (remover), regiões sobrepostas, regiões afetadas (objetos caindo, itens deslocados) e fundo (manter)
Resolução: 384x672 (padrão)
Máximo de frames: 197
Agendador: DDIM
Precisão: BF16 com quantização FP8 para eficiência de memória

Arquivos do Modelo

void_pass1.safetensors - Modelo base de inpainting (obrigatório)
void_pass2.safetensors - Refinamento de ruído deformado para consistência temporal (opcional)

O Passo 1 é suficiente para a maioria dos vídeos. O Passo 2 adiciona inicialização latente deformada por fluxo óptico para melhor consistência temporal em clipes mais longos.

Início Rápido

O notebook incluído lida com a configuração, baixa os modelos, executa inferência em um vídeo de amostra e exibe o resultado.

git clone https://github.com/netflix/void-model.git
cd void-model

Uso via CLI

# Instalar dependências pip install -r requirements.txt Baixar o modelo base huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP --local-dir ./CogVideoX-Fun-V1.5-5b-InP Baixar os checkpoints do VOID huggingface-cli download netflix/void-model --local-dir . Executar inferência do Passo 1 em uma amostra

python inference/cogvideox_fun/predict_v2v.py --config config/quadmask_cogvideox.py --config.data.data_rootdir= "./sample" --config.experiment.run_seqs= "lime" --config.experiment.save_path= "./outputs" --config.video_model.transformer_path= "./void_pass1.safetensors"

Formato de Entrada

Cada vídeo precisa de três arquivos em uma pasta:

input_video.mp4 - vídeo fonte
quadmask_0.mp4 - máscara de 4 valores (0=remover, 63=sobreposição, 127=afetado, 255=manter)
prompt.json - {"bg": "descrição da cena após a remoção"}

O repositório inclui um pipeline de geração de máscaras (VLM-MASK-REASONER/) que cria quadmasks a partir de vídeos brutos usando SAM2 + Gemini.

Detalhes do Treinamento

Treinado em vídeos contrafactuais pareados gerados de duas fontes: HUMOTO (interações humano-objeto renderizadas no Blender com simulação física) e Kubric (interações apenas entre objetos usando Google Scanned Objects)
O treinamento foi executado em 8x GPUs A100 80GB usando DeepSpeed ZeRO Stage 2

Arquitetura

Base: CogVideoX 3D Transformer (5B parâmetros)
Entrada: Vídeo + quadmask + prompt de texto descrevendo a cena após a remoção

📖 Leia a fonte completa: HN AI Agents

Netflix Lança VOID: Modelo de Exclusão de Objetos e Interações em Vídeo no Hugging Face

O que o VOID faz

Requisitos Técnicos

Arquivos do Modelo

Início Rápido

Uso via CLI

Baixar o modelo base

Baixar os checkpoints do VOID

Executar inferência do Passo 1 em uma amostra

Formato de Entrada

Detalhes do Treinamento

Arquitetura

👀 See Also

Projeto de Sistema Multiagente da Anthropic para Melhorar a Qualidade do Código do Claude

O ViralCanvas.ai oferece um espaço de trabalho de contexto persistente para os modelos Claude, incluindo o Sonnet 4.5.

AgentMarket: Uma Plataforma de Prova de Conceito para Economias de Agentes de IA

Renderizador 3D Baseado em Terminal Construído com Sistema de Código Multi-Agente Claude