Netflix veröffentlicht VOID: Video-Objekt- und Interaktionslöschmodell auf Hugging Face

Was VOID leistet
VOID entfernt Objekte aus Videos zusammen mit allen Interaktionen, die sie in der Szene auslösen – nicht nur sekundäre Effekte wie Schatten und Reflexionen, sondern auch physische Interaktionen wie fallende Objekte, wenn eine Person entfernt wird.
Technische Anforderungen
- Benötigt eine GPU mit 40 GB+ VRAM (z.B. A100)
- Basiert auf CogVideoX-Fun-V1.5-5b-InP
- Für Video-Inpainting mit interaktionsbewusstem Quadmask-Conditioning feinabgestimmt
- Quadmask ist eine 4-Wert-Maske, die kodiert: Hauptobjekt (entfernen), Überlappungsbereiche, betroffene Bereiche (fallende Objekte, verschobene Gegenstände) und Hintergrund (behalten)
- Auflösung: 384x672 (Standard)
- Maximale Frames: 197
- Scheduler: DDIM
- Präzision: BF16 mit FP8-Quantisierung für Speichereffizienz
Modelldateien
void_pass1.safetensors- Basis-Inpainting-Modell (erforderlich)void_pass2.safetensors- Warped-Noise-Verfeinerung für zeitliche Konsistenz (optional)
Pass 1 ist für die meisten Videos ausreichend. Pass 2 fügt eine optisch flussverzerrte latente Initialisierung für verbesserte zeitliche Konsistenz bei längeren Clips hinzu.
Schnellstart
Das enthaltene Notebook übernimmt das Setup, lädt Modelle herunter, führt Inferenz auf einem Beispielvideo durch und zeigt das Ergebnis an.
git clone https://github.com/netflix/void-model.git
cd void-modelCLI-Verwendung
# Abhängigkeiten installieren
pip install -r requirements.txt
Basismodell herunterladen
huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP
--local-dir ./CogVideoX-Fun-V1.5-5b-InP
VOID-Checkpoints herunterladen
huggingface-cli download netflix/void-model
--local-dir .
Pass-1-Inferenz auf einem Beispiel ausführen
python inference/cogvideox_fun/predict_v2v.py
--config config/quadmask_cogvideox.py
--config.data.data_rootdir= "./sample"
--config.experiment.run_seqs= "lime"
--config.experiment.save_path= "./outputs"
--config.video_model.transformer_path= "./void_pass1.safetensors"
Eingabeformat
Jedes Video benötigt drei Dateien in einem Ordner:
input_video.mp4- Quellvideoquadmask_0.mp4- 4-Wert-Maske (0=entfernen, 63=überlappen, 127=betroffen, 255=behalten)prompt.json- {"bg": "Beschreibung der Szene nach der Entfernung"}
Das Repo enthält eine Maskenerzeugungspipeline (VLM-MASK-REASONER/), die Quadmasken aus Rohvideos mit SAM2 + Gemini erstellt.
Trainingsdetails
- Trainiert auf gepaarten kontrafaktischen Videos, die aus zwei Quellen generiert wurden: HUMOTO (Mensch-Objekt-Interaktionen, in Blender mit Physiksimulation gerendert) und Kubric (nur Objekt-Interaktionen mit Google Scanned Objects)
- Das Training wurde auf 8x A100 80GB GPUs mit DeepSpeed ZeRO Stage 2 durchgeführt
Architektur
- Basis: CogVideoX 3D Transformer (5B Parameter)
- Eingabe: Video + Quadmask + Text-Prompt, der die Szene nach der Entfernung beschreibt
📖 Read the full source: HN AI Agents
👀 Siehe auch

Qwen 3.6 27B Quantisierungs-Benchmark: Q4_K_M schlägt Q8_0 bei praktischen Abwägungen
Qwen 3.6 27B wurde in BF16, Q4_K_M und Q8_0 GGUF-Quants auf HumanEval, HellaSwag und BFCL getestet. Q4_K_M liefert nahezu BF16-Ergebnisse mit 48 % weniger RAM, 1,45-facher Geschwindigkeit und 68,8 % kleinerer Dateigröße.

AIsbf 0.9.8 fügt Caching, Routing-Verbesserungen und erweiterte KI-Dienstunterstützung hinzu.
AIsbf 0.9.8 ist ein API-Proxy/Router, der eine OpenAI-kompatible Schnittstelle zu mehreren KI-Diensten bereitstellt. Diese Version fügt Redis-, SQLite-, MySQL- und dateibasiertes Caching hinzu, verbessertes semantisches Routing und volle OAuth2-Unterstützung für Claude.ai-, Amazon Kiro-cli-, OpenAI Codex- und Kilo.ai-Abonnenten.

Offline-Web-Suche: Eine lokale Google-Suchalternative für KI-Agenten
Ein Entwickler hat offline-web-search erstellt, um die schlechten Offline-Suchfähigkeiten von KI-Agenten zu verbessern. Es handelt sich um einen direkten Ersatz, der Claudes Web-Tools mit BM25-Ranking, SQLite FTS5-Indizierung sowie Unterstützung für ZIM-Archive und benutzerdefinierte Crawler nachahmt.

Das OpenClaw-Plugin fügt mit dem Engram-Server persistenten Speicher hinzu.
Ein Entwickler hat ein TypeScript-Plugin erstellt, das OpenClaw-Agenten mit Engram verbindet, einem auf Go basierenden Speicherserver, der SQLite mit FTS5-Suche verwendet. Das Plugin bietet 11 Tools, 4 Lebenszyklus-Hooks und automatischen Abruf, der relevante Erinnerungen vor jedem Agenten-Zugriff in die Prompts einfügt.