Netflix выпускает VOID: модель удаления объектов и взаимодействий на видео на Hugging Face.

✍️ OpenClawRadar📅 Опубликовано: 14 апреля 2026 г.🔗 Source
Netflix выпускает VOID: модель удаления объектов и взаимодействий на видео на Hugging Face.
Ad

Что делает VOID

VOID удаляет объекты из видео вместе со всеми взаимодействиями, которые они вызывают в сцене — не только вторичными эффектами вроде теней и отражений, но и физическими взаимодействиями, такими как падение предметов при удалении человека.

Технические требования

  • Требуется видеокарта с 40 ГБ+ видеопамяти (например, A100)
  • Построена на CogVideoX-Fun-V1.5-5b-InP
  • Дообучена для видеоинпейнтинга с квадмаской, учитывающей взаимодействия
  • Квадмаска — это 4-значная маска, которая кодирует: основной объект (удалить), области перекрытия, затронутые области (падающие предметы, смещённые объекты) и фон (оставить)
  • Разрешение: 384x672 (по умолчанию)
  • Максимум кадров: 197
  • Планировщик: DDIM
  • Точность: BF16 с квантованием FP8 для эффективности памяти

Файлы модели

  • void_pass1.safetensors — Базовая модель инпейнтинга (обязательна)
  • void_pass2.safetensors — Уточнение с искажённым шумом для временной согласованности (опционально)

Первого прохода достаточно для большинства видео. Второй проход добавляет инициализацию скрытых переменных с оптическим потоком для улучшения временной согласованности в длинных клипах.

Быстрый старт

Включённый блокнот обрабатывает настройку, загружает модели, запускает вывод на примере видео и показывает результат.

git clone https://github.com/netflix/void-model.git
cd void-model
Ad

Использование через CLI

# Установите зависимости
pip install -r requirements.txt

Загрузите базовую модель

huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP
--local-dir ./CogVideoX-Fun-V1.5-5b-InP

Загрузите чекпоинты VOID

huggingface-cli download netflix/void-model
--local-dir .

Запустите вывод первого прохода на примере

python inference/cogvideox_fun/predict_v2v.py
--config config/quadmask_cogvideox.py
--config.data.data_rootdir= "./sample"
--config.experiment.run_seqs= "lime"
--config.experiment.save_path= "./outputs"
--config.video_model.transformer_path= "./void_pass1.safetensors"

Формат входных данных

Для каждого видео нужны три файла в папке:

  • input_video.mp4 — исходное видео
  • quadmask_0.mp4 — 4-значная маска (0=удалить, 63=перекрытие, 127=затронуто, 255=оставить)
  • prompt.json — {"bg": "описание сцены после удаления"}

Репозиторий включает конвейер генерации масок (VLM-MASK-REASONER/), который создаёт квадмаски из исходных видео с помощью SAM2 + Gemini.

Детали обучения

  • Обучена на парных контрафактных видео, сгенерированных из двух источников: HUMOTO (взаимодействия человек-объект, отрендеренные в Blender с физической симуляцией) и Kubric (взаимодействия только объектов с использованием Google Scanned Objects)
  • Обучение проводилось на 8 видеокартах A100 80 ГБ с использованием DeepSpeed ZeRO Stage 2

Архитектура

  • Основа: CogVideoX 3D Transformer (5 млрд параметров)
  • Вход: Видео + квадмаска + текстовое описание сцены после удаления

📖 Прочитать полный источник: HN AI Agents

Ad

👀 Смотрите также

Кодекс Соединенных Штатов доступен в виде репозитория Git с полной историей изменений.
Инструменты

Кодекс Соединенных Штатов доступен в виде репозитория Git с полной историей изменений.

Свод законов США доступен в виде Git-репозитория, где всё федеральное законодательство хранится в файлах Markdown. Каждый коммит представляет собой снимок состояния на определённый момент времени с 2013 года по настоящее время, что позволяет разработчикам использовать команды git diff, git log и git blame для отслеживания изменений в законодательстве.

OpenClawRadar
Проверка структурных галлюцинаций с открытым исходным кодом для конвейеров ИИ-агентов
Инструменты

Проверка структурных галлюцинаций с открытым исходным кодом для конвейеров ИИ-агентов

Новый инструмент с открытым исходным кодом предоставляет четыре супрессора для обнаружения структурных сбоев в конвейерах ИИ-агентов, включая проверку обоснованности, обнаружение инъекций в промпты, валидацию JSON и проверку ответов инструментов. Доступен как REST API и MCP-сервер с бесплатным тарифом 500 запросов/месяц.

OpenClawRadar
Исправление потери памяти в OpenClaw с помощью плагина Mem0
Инструменты

Исправление потери памяти в OpenClaw с помощью плагина Mem0

Агенты OpenClaw испытывают потерю памяти из-за сжатия контекста, которое перезаписывает файлы, такие как MEMORY.md. Плагин Mem0 решает эту проблему, вынося память за пределы окна контекста с функциями авто-вспоминания и авто-захвата.

OpenClawRadar
Создание локального открытого AI-рабочего пространства с использованием Rust и Tauri
Инструменты

Создание локального открытого AI-рабочего пространства с использованием Rust и Tauri

Изучите полностью локальное, открытое пространство ИИ, созданное с использованием Rust, Tauri и sqlite-vec, без бэкенда на Python.

OpenClawRadar