VOID: Netflix Video-Inpainting Modell auf Hugging Face

Was VOID leistet

VOID entfernt Objekte aus Videos zusammen mit allen Interaktionen, die sie in der Szene auslösen – nicht nur sekundäre Effekte wie Schatten und Reflexionen, sondern auch physische Interaktionen wie fallende Objekte, wenn eine Person entfernt wird.

Technische Anforderungen

Benötigt eine GPU mit 40 GB+ VRAM (z.B. A100)
Basiert auf CogVideoX-Fun-V1.5-5b-InP
Für Video-Inpainting mit interaktionsbewusstem Quadmask-Conditioning feinabgestimmt
Quadmask ist eine 4-Wert-Maske, die kodiert: Hauptobjekt (entfernen), Überlappungsbereiche, betroffene Bereiche (fallende Objekte, verschobene Gegenstände) und Hintergrund (behalten)
Auflösung: 384x672 (Standard)
Maximale Frames: 197
Scheduler: DDIM
Präzision: BF16 mit FP8-Quantisierung für Speichereffizienz

Modelldateien

void_pass1.safetensors - Basis-Inpainting-Modell (erforderlich)
void_pass2.safetensors - Warped-Noise-Verfeinerung für zeitliche Konsistenz (optional)

Pass 1 ist für die meisten Videos ausreichend. Pass 2 fügt eine optisch flussverzerrte latente Initialisierung für verbesserte zeitliche Konsistenz bei längeren Clips hinzu.

Schnellstart

Das enthaltene Notebook übernimmt das Setup, lädt Modelle herunter, führt Inferenz auf einem Beispielvideo durch und zeigt das Ergebnis an.

git clone https://github.com/netflix/void-model.git
cd void-model

CLI-Verwendung

# Abhängigkeiten installieren pip install -r requirements.txt Basismodell herunterladen huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP --local-dir ./CogVideoX-Fun-V1.5-5b-InP VOID-Checkpoints herunterladen huggingface-cli download netflix/void-model --local-dir . Pass-1-Inferenz auf einem Beispiel ausführen

python inference/cogvideox_fun/predict_v2v.py --config config/quadmask_cogvideox.py --config.data.data_rootdir= "./sample" --config.experiment.run_seqs= "lime" --config.experiment.save_path= "./outputs" --config.video_model.transformer_path= "./void_pass1.safetensors"

Eingabeformat

Jedes Video benötigt drei Dateien in einem Ordner:

input_video.mp4 - Quellvideo
quadmask_0.mp4 - 4-Wert-Maske (0=entfernen, 63=überlappen, 127=betroffen, 255=behalten)
prompt.json - {"bg": "Beschreibung der Szene nach der Entfernung"}

Das Repo enthält eine Maskenerzeugungspipeline (VLM-MASK-REASONER/), die Quadmasken aus Rohvideos mit SAM2 + Gemini erstellt.

Trainingsdetails

Trainiert auf gepaarten kontrafaktischen Videos, die aus zwei Quellen generiert wurden: HUMOTO (Mensch-Objekt-Interaktionen, in Blender mit Physiksimulation gerendert) und Kubric (nur Objekt-Interaktionen mit Google Scanned Objects)
Das Training wurde auf 8x A100 80GB GPUs mit DeepSpeed ZeRO Stage 2 durchgeführt

Architektur

Basis: CogVideoX 3D Transformer (5B Parameter)
Eingabe: Video + Quadmask + Text-Prompt, der die Szene nach der Entfernung beschreibt

📖 Read the full source: HN AI Agents

Netflix veröffentlicht VOID: Video-Objekt- und Interaktionslöschmodell auf Hugging Face

Was VOID leistet

Technische Anforderungen

Modelldateien

Schnellstart

CLI-Verwendung

Basismodell herunterladen

VOID-Checkpoints herunterladen

Pass-1-Inferenz auf einem Beispiel ausführen

Eingabeformat

Trainingsdetails

Architektur

👀 Siehe auch

VibeIndex.ai: Durchsuchbare Plattform für 90.000+ KI-Fähigkeiten, MCPs und Plugins mit Sicherheitsüberprüfung

AutoSkillUpdate: Ein Claude-Code-Plugin, das veraltete Fähigkeiten erkennt

Neues Tool injiziert Anweisungen in Claude Code basierend auf Kontextnutzung

Membase: Externer Speicherlayer für KI-Assistenten über Tools hinweg