Netflix Lança VOID: Modelo de Exclusão de Objetos e Interações em Vídeo no Hugging Face

O que o VOID faz
O VOID remove objetos de vídeos juntamente com todas as interações que eles induzem na cena — não apenas efeitos secundários como sombras e reflexos, mas interações físicas como objetos caindo quando uma pessoa é removida.
Requisitos Técnicos
- Requer uma GPU com 40GB+ de VRAM (ex.: A100)
- Construído sobre CogVideoX-Fun-V1.5-5b-InP
- Fine-tuned para inpainting de vídeo com condicionamento quadmask consciente de interações
- Quadmask é uma máscara de 4 valores que codifica: objeto primário (remover), regiões sobrepostas, regiões afetadas (objetos caindo, itens deslocados) e fundo (manter)
- Resolução: 384x672 (padrão)
- Máximo de frames: 197
- Agendador: DDIM
- Precisão: BF16 com quantização FP8 para eficiência de memória
Arquivos do Modelo
void_pass1.safetensors- Modelo base de inpainting (obrigatório)void_pass2.safetensors- Refinamento de ruído deformado para consistência temporal (opcional)
O Passo 1 é suficiente para a maioria dos vídeos. O Passo 2 adiciona inicialização latente deformada por fluxo óptico para melhor consistência temporal em clipes mais longos.
Início Rápido
O notebook incluído lida com a configuração, baixa os modelos, executa inferência em um vídeo de amostra e exibe o resultado.
git clone https://github.com/netflix/void-model.git
cd void-modelUso via CLI
# Instalar dependências
pip install -r requirements.txt
Baixar o modelo base
huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP
--local-dir ./CogVideoX-Fun-V1.5-5b-InP
Baixar os checkpoints do VOID
huggingface-cli download netflix/void-model
--local-dir .
Executar inferência do Passo 1 em uma amostra
python inference/cogvideox_fun/predict_v2v.py
--config config/quadmask_cogvideox.py
--config.data.data_rootdir= "./sample"
--config.experiment.run_seqs= "lime"
--config.experiment.save_path= "./outputs"
--config.video_model.transformer_path= "./void_pass1.safetensors"
Formato de Entrada
Cada vídeo precisa de três arquivos em uma pasta:
input_video.mp4- vídeo fontequadmask_0.mp4- máscara de 4 valores (0=remover, 63=sobreposição, 127=afetado, 255=manter)prompt.json- {"bg": "descrição da cena após a remoção"}
O repositório inclui um pipeline de geração de máscaras (VLM-MASK-REASONER/) que cria quadmasks a partir de vídeos brutos usando SAM2 + Gemini.
Detalhes do Treinamento
- Treinado em vídeos contrafactuais pareados gerados de duas fontes: HUMOTO (interações humano-objeto renderizadas no Blender com simulação física) e Kubric (interações apenas entre objetos usando Google Scanned Objects)
- O treinamento foi executado em 8x GPUs A100 80GB usando DeepSpeed ZeRO Stage 2
Arquitetura
- Base: CogVideoX 3D Transformer (5B parâmetros)
- Entrada: Vídeo + quadmask + prompt de texto descrevendo a cena após a remoção
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Argus: Extensão Open-Source para VS Code para Observabilidade em Tempo Real do Claude Code
O Argus visualiza as etapas do agente Claude Code em tempo real dentro do VS Code, mostrando timeline, grafo de dependências e detecção de custo/loop para depurar comportamentos que desperdiçam tokens.

Servidor MCP de Nutrição Construído com Claude Code para Exportação de Diário Alimentar
Um desenvolvedor criou um servidor MCP de nutrição usando Claude Code após aplicativos comerciais bloquearem a exportação de dados, criando uma ferramenta que registra refeições via Claude, gera resumos e exporta para Excel sem precisar trocar de aplicativos.

O pipeline MCP de chamada única reduz o uso de tokens do Claude Code em 74%.
Um desenvolvedor criou um servidor MCP de motor de contexto que fornece ao Claude Code um grafo de dependência de bases de código, reduzindo o uso de tokens em 65% inicialmente. Um novo pipeline de chamada única reduz ainda mais os tokens em 74% ao eliminar múltiplas idas e voltas e deduplicar resultados no lado do servidor.

Plataforma de IA da Cloudflare: Camada de Inferência Unificada para Agentes de IA
A Plataforma de IA da Cloudflare oferece uma única API para acessar mais de 70 modelos de mais de 12 provedores, incluindo suporte multimodal para modelos de imagem, vídeo e fala. Ela permite alternar entre modelos com alterações de código de uma linha e oferece monitoramento centralizado de custos com metadados personalizados.