Netflix VOID: ビデオからの物体除去モデルをHugging Faceで公開

VOIDの機能

VOIDは、ビデオからオブジェクトを除去し、シーンに引き起こされるすべての相互作用を除去します。影や反射などの二次的な効果だけでなく、人物が除去された際に物体が落下するような物理的相互作用も含みます。

技術要件

40GB以上のVRAMを搭載したGPUが必要（例：A100）
CogVideoX-Fun-V1.5-5b-InPを基盤に構築
相互作用を考慮したクワッドマスク条件付けによるビデオインペインティング用にファインチューニング
クワッドマスクは4値のマスクで、以下をエンコード：主要オブジェクト（除去）、重複領域、影響を受ける領域（落下する物体、移動したアイテム）、背景（保持）
解像度：384x672（デフォルト）
最大フレーム数：197
スケジューラー：DDIM
精度：メモリ効率のためBF16とFP8量子化

モデルファイル

void_pass1.safetensors - 基本インペインティングモデル（必須）
void_pass2.safetensors - 時間的一貫性のための歪みノイズ精緻化（オプション）

ほとんどのビデオではPass 1で十分です。Pass 2は、長いクリップで時間的一貫性を向上させるために、オプティカルフローで歪んだ潜在初期化を追加します。

クイックスタート

付属のノートブックは、セットアップ、モデルのダウンロード、サンプルビデオでの推論実行、結果の表示を処理します。

git clone https://github.com/netflix/void-model.git
cd void-model

CLIの使用方法

# 依存関係をインストール pip install -r requirements.txt 基本モデルをダウンロード huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP --local-dir ./CogVideoX-Fun-V1.5-5b-InP VOIDチェックポイントをダウンロード huggingface-cli download netflix/void-model --local-dir . サンプルでPass 1推論を実行

python inference/cogvideox_fun/predict_v2v.py --config config/quadmask_cogvideox.py --config.data.data_rootdir= "./sample" --config.experiment.run_seqs= "lime" --config.experiment.save_path= "./outputs" --config.video_model.transformer_path= "./void_pass1.safetensors"

入力形式

各ビデオには、フォルダ内に3つのファイルが必要です：

input_video.mp4 - ソースビデオ
quadmask_0.mp4 - 4値マスク（0=除去、63=重複、127=影響を受ける、255=保持）
prompt.json - {"bg": "除去後のシーンの説明"}

リポジトリには、SAM2 + Geminiを使用して生のビデオからクワッドマスクを作成するマスク生成パイプライン（VLM-MASK-REASONER/）が含まれています。

トレーニング詳細

2つのソースから生成された対となる反事実的ビデオでトレーニング：HUMOTO（物理シミュレーションを伴うBlenderでレンダリングされた人間とオブジェクトの相互作用）とKubric（Google Scanned Objectsを使用したオブジェクトのみの相互作用）
トレーニングは、DeepSpeed ZeRO Stage 2を使用した8x A100 80GB GPUで実行

アーキテクチャ

基本：CogVideoX 3D Transformer（50億パラメータ）
入力：ビデオ + クワッドマスク + 除去後のシーンを説明するテキストプロンプト

📖 Read the full source: HN AI Agents

NetflixがHugging FaceにVOID：ビデオオブジェクトおよびインタラクション削除モデルをリリース

VOIDの機能

技術要件

モデルファイル

クイックスタート

CLIの使用方法

基本モデルをダウンロード

VOIDチェックポイントをダウンロード

サンプルでPass 1推論を実行

入力形式

トレーニング詳細

アーキテクチャ

👀 See Also

RedditユーザーがAIアシスタントから個人の知識をエクスポートするための詳細なプロンプトを共有

Claude Code v2.1.90は、CLAUDE_CODE_NO_FLICKERフラグによるマウスサポートを追加しました。

SecureContext: Claude Codeにおける永続メモリとトークン削減のためのMCPプラグイン

ProofShot CLIはAIコーディングエージェントにブラウザ検証機能を提供します