Netflix lanza VOID: Modelo de Eliminación de Objetos e Interacciones en Video en Hugging Face

Qué hace VOID
VOID elimina objetos de los videos junto con todas las interacciones que inducen en la escena — no solo efectos secundarios como sombras y reflejos, sino interacciones físicas como objetos que caen cuando se elimina una persona.
Requisitos técnicos
- Requiere una GPU con 40GB+ de VRAM (por ejemplo, A100)
- Basado en CogVideoX-Fun-V1.5-5b-InP
- Afinado para restauración de video con condicionamiento de máscara cuádruple consciente de interacciones
- La máscara cuádruple es una máscara de 4 valores que codifica: objeto principal (eliminar), regiones superpuestas, regiones afectadas (objetos que caen, elementos desplazados) y fondo (conservar)
- Resolución: 384x672 (predeterminado)
- Máximo de fotogramas: 197
- Programador: DDIM
- Precisión: BF16 con cuantización FP8 para eficiencia de memoria
Archivos del modelo
void_pass1.safetensors- Modelo base de restauración (requerido)void_pass2.safetensors- Refinamiento de ruido deformado para consistencia temporal (opcional)
El Paso 1 es suficiente para la mayoría de los videos. El Paso 2 agrega inicialización latente deformada por flujo óptico para mejorar la consistencia temporal en clips más largos.
Inicio rápido
El cuaderno incluido maneja la configuración, descarga los modelos, ejecuta la inferencia en un video de muestra y muestra el resultado.
git clone https://github.com/netflix/void-model.git
cd void-modelUso de CLI
# Instalar dependencias
pip install -r requirements.txt
Descargar el modelo base
huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP
--local-dir ./CogVideoX-Fun-V1.5-5b-InP
Descargar puntos de control de VOID
huggingface-cli download netflix/void-model
--local-dir .
Ejecutar inferencia del Paso 1 en una muestra
python inference/cogvideox_fun/predict_v2v.py
--config config/quadmask_cogvideox.py
--config.data.data_rootdir= "./sample"
--config.experiment.run_seqs= "lime"
--config.experiment.save_path= "./outputs"
--config.video_model.transformer_path= "./void_pass1.safetensors"
Formato de entrada
Cada video necesita tres archivos en una carpeta:
input_video.mp4- video fuentequadmask_0.mp4- máscara de 4 valores (0=eliminar, 63=superponer, 127=afectado, 255=conservar)prompt.json- {"bg": "descripción de la escena después de la eliminación"}
El repositorio incluye una canalización de generación de máscaras (VLM-MASK-REASONER/) que crea máscaras cuádruples a partir de videos sin procesar usando SAM2 + Gemini.
Detalles del entrenamiento
- Entrenado con videos contrafactuales emparejados generados de dos fuentes: HUMOTO (interacciones humano-objeto renderizadas en Blender con simulación física) y Kubric (interacciones solo de objetos usando Google Scanned Objects)
- El entrenamiento se ejecutó en 8x GPUs A100 80GB usando DeepSpeed ZeRO Stage 2
Arquitectura
- Base: CogVideoX 3D Transformer (5B parámetros)
- Entrada: Video + máscara cuádruple + indicación de texto que describe la escena después de la eliminación
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

ThumbGate implementa el patrón de agente de lenguaje natural de Tsinghua para la seguridad de la IA.
La herramienta de código abierto ThumbGate implementa el patrón Natural-Language Agent Harness del artículo NLAH de Tsinghua, mapeando cuatro componentes: contratos a reglas de prevención a partir de retroalimentación negativa, puertas de verificación a ganchos PreToolUse, estado duradero a base de datos de lecciones SQLite+FTS5, y adaptadores a adaptadores de servidor MCP para múltiples agentes de IA de codificación.

Dev-Card: Una Habilidad de Código de Claude que Genera Tarjetas de Identificación de Desarrolladores a partir del Historial de Git
Dev-Card es una habilidad de Claude Code que analiza repositorios git para generar Tarjetas de Identidad de Desarrollador compartibles, asignando uno de los 11 arquetipos de desarrollador basándose en el horario de los commits, el desglose de lenguajes, los patrones de mensajes de commit y la distribución del tamaño de los commits.

Sentido: SDK de Go para aserciones de prueba impulsadas por LLM y extracción de texto estructurado
Sense es un SDK de Go que utiliza Claude para dos funciones principales: evaluar resultados no deterministas en pruebas con aserciones en lenguaje natural, y extraer estructuras tipadas de texto no estructurado mediante reflexión y tool_use forzado.

Servidor MCP Rastrea Errores Conocidos en Herramientas de Desarrollo para Mejorar las Recomendaciones de LLM
nanmesh-mcp es un servidor MCP que rastrea problemas de GitHub, Stack Overflow y Reddit para seguir problemas reales en 57 herramientas de desarrollo, proporcionando a los LLMs datos actualizados sobre errores antes de hacer recomendaciones de bibliotecas.