NetflixがHugging FaceにVOID:ビデオオブジェクトおよびインタラクション削除モデルをリリース

VOIDの機能
VOIDは、ビデオからオブジェクトを除去し、シーンに引き起こされるすべての相互作用を除去します。影や反射などの二次的な効果だけでなく、人物が除去された際に物体が落下するような物理的相互作用も含みます。
技術要件
- 40GB以上のVRAMを搭載したGPUが必要(例:A100)
- CogVideoX-Fun-V1.5-5b-InPを基盤に構築
- 相互作用を考慮したクワッドマスク条件付けによるビデオインペインティング用にファインチューニング
- クワッドマスクは4値のマスクで、以下をエンコード:主要オブジェクト(除去)、重複領域、影響を受ける領域(落下する物体、移動したアイテム)、背景(保持)
- 解像度:384x672(デフォルト)
- 最大フレーム数:197
- スケジューラー:DDIM
- 精度:メモリ効率のためBF16とFP8量子化
モデルファイル
void_pass1.safetensors- 基本インペインティングモデル(必須)void_pass2.safetensors- 時間的一貫性のための歪みノイズ精緻化(オプション)
ほとんどのビデオではPass 1で十分です。Pass 2は、長いクリップで時間的一貫性を向上させるために、オプティカルフローで歪んだ潜在初期化を追加します。
クイックスタート
付属のノートブックは、セットアップ、モデルのダウンロード、サンプルビデオでの推論実行、結果の表示を処理します。
git clone https://github.com/netflix/void-model.git
cd void-modelCLIの使用方法
# 依存関係をインストール
pip install -r requirements.txt
基本モデルをダウンロード
huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP
--local-dir ./CogVideoX-Fun-V1.5-5b-InP
VOIDチェックポイントをダウンロード
huggingface-cli download netflix/void-model
--local-dir .
サンプルでPass 1推論を実行
python inference/cogvideox_fun/predict_v2v.py
--config config/quadmask_cogvideox.py
--config.data.data_rootdir= "./sample"
--config.experiment.run_seqs= "lime"
--config.experiment.save_path= "./outputs"
--config.video_model.transformer_path= "./void_pass1.safetensors"
入力形式
各ビデオには、フォルダ内に3つのファイルが必要です:
input_video.mp4- ソースビデオquadmask_0.mp4- 4値マスク(0=除去、63=重複、127=影響を受ける、255=保持)prompt.json- {"bg": "除去後のシーンの説明"}
リポジトリには、SAM2 + Geminiを使用して生のビデオからクワッドマスクを作成するマスク生成パイプライン(VLM-MASK-REASONER/)が含まれています。
トレーニング詳細
- 2つのソースから生成された対となる反事実的ビデオでトレーニング:HUMOTO(物理シミュレーションを伴うBlenderでレンダリングされた人間とオブジェクトの相互作用)とKubric(Google Scanned Objectsを使用したオブジェクトのみの相互作用)
- トレーニングは、DeepSpeed ZeRO Stage 2を使用した8x A100 80GB GPUで実行
アーキテクチャ
- 基本:CogVideoX 3D Transformer(50億パラメータ)
- 入力:ビデオ + クワッドマスク + 除去後のシーンを説明するテキストプロンプト
📖 Read the full source: HN AI Agents
👀 See Also

RedditユーザーがAIアシスタントから個人の知識をエクスポートするための詳細なプロンプトを共有
Redditユーザーが、AnthropicのChatGPTインポート機能の限界を補うため、ClaudeなどのAIアシスタントから構造化された個人知識を抽出する包括的なプロンプトを作成しました。このプロンプトは、個人知識ベース、知的フレームワーク、知識グラフの3つの異なるJSON成果物を生成します。

Claude Code v2.1.90は、CLAUDE_CODE_NO_FLICKERフラグによるマウスサポートを追加しました。
Anthropicは、チャットインターフェース内でマウスサポートを可能にする新機能を備えたClaude Code v2.1.90をリリースしました。ユーザーは、claudeを実行する前に環境変数CLAUDE_CODE_NO_FLICKER=1を設定することで有効化できます。

SecureContext: Claude Codeにおける永続メモリとトークン削減のためのMCPプラグイン
SecureContextは、Claude Codeセッション間でMemGPTスタイルの永続性を提供し、ターゲットを絞ったコンテキストリコールにより入力トークンを約87%削減し、セキュリティサンドボックスを通じて認証情報を隔離するオープンソースのMCPプラグインです。

ProofShot CLIはAIコーディングエージェントにブラウザ検証機能を提供します
ProofShotは、ブラウザセッションの記録、スクリーンショットの撮影、コンソールエラーの収集を通じて、AIコーディングエージェントがUI機能を検証できるオープンソースのCLIツールです。シェルコマンドを実行できるあらゆるエージェントと連携し、人間によるレビューのための自己完結型HTMLレポートを生成します。