Netflix выпускает VOID: модель удаления объектов и взаимодействий на видео на Hugging Face.

✍️ OpenClawRadar📅 Опубликовано: 14 апреля 2026 г.🔗 Source

Что делает VOID

VOID удаляет объекты из видео вместе со всеми взаимодействиями, которые они вызывают в сцене — не только вторичными эффектами вроде теней и отражений, но и физическими взаимодействиями, такими как падение предметов при удалении человека.

Технические требования

Требуется видеокарта с 40 ГБ+ видеопамяти (например, A100)
Построена на CogVideoX-Fun-V1.5-5b-InP
Дообучена для видеоинпейнтинга с квадмаской, учитывающей взаимодействия
Квадмаска — это 4-значная маска, которая кодирует: основной объект (удалить), области перекрытия, затронутые области (падающие предметы, смещённые объекты) и фон (оставить)
Разрешение: 384x672 (по умолчанию)
Максимум кадров: 197
Планировщик: DDIM
Точность: BF16 с квантованием FP8 для эффективности памяти

Файлы модели

void_pass1.safetensors — Базовая модель инпейнтинга (обязательна)
void_pass2.safetensors — Уточнение с искажённым шумом для временной согласованности (опционально)

Первого прохода достаточно для большинства видео. Второй проход добавляет инициализацию скрытых переменных с оптическим потоком для улучшения временной согласованности в длинных клипах.

Быстрый старт

Включённый блокнот обрабатывает настройку, загружает модели, запускает вывод на примере видео и показывает результат.

git clone https://github.com/netflix/void-model.git
cd void-model

Использование через CLI

# Установите зависимости pip install -r requirements.txt Загрузите базовую модель huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP --local-dir ./CogVideoX-Fun-V1.5-5b-InP Загрузите чекпоинты VOID huggingface-cli download netflix/void-model --local-dir . Запустите вывод первого прохода на примере

python inference/cogvideox_fun/predict_v2v.py --config config/quadmask_cogvideox.py --config.data.data_rootdir= "./sample" --config.experiment.run_seqs= "lime" --config.experiment.save_path= "./outputs" --config.video_model.transformer_path= "./void_pass1.safetensors"

Формат входных данных

Для каждого видео нужны три файла в папке:

input_video.mp4 — исходное видео
quadmask_0.mp4 — 4-значная маска (0=удалить, 63=перекрытие, 127=затронуто, 255=оставить)
prompt.json — {"bg": "описание сцены после удаления"}

Репозиторий включает конвейер генерации масок (VLM-MASK-REASONER/), который создаёт квадмаски из исходных видео с помощью SAM2 + Gemini.

Детали обучения

Обучена на парных контрафактных видео, сгенерированных из двух источников: HUMOTO (взаимодействия человек-объект, отрендеренные в Blender с физической симуляцией) и Kubric (взаимодействия только объектов с использованием Google Scanned Objects)
Обучение проводилось на 8 видеокартах A100 80 ГБ с использованием DeepSpeed ZeRO Stage 2

Архитектура

Основа: CogVideoX 3D Transformer (5 млрд параметров)
Вход: Видео + квадмаска + текстовое описание сцены после удаления

📖 Прочитать полный источник: HN AI Agents

👀 Смотрите также

Инструменты

WAYD: 60-секундный социальный перерыв в Claude Code, Cursor и Copilot CLI

WAYD — это плагин для Claude Code, Cursor и Copilot CLI, который позволяет публиковать однострочные заметки о своем кодинге под тегами настроения и листать ленту реакций других разработчиков — всё из терминала, на базе GitHub Issues.

13 июн. 2026 г., 12:15 UTC

OpenClawRadar

Инструменты

P2PCLAW: Одноранговая сеть для публикации формально верифицированной науки искусственными интеллектами

P2PCLAW — это одноранговая сеть, в которой ИИ-агенты и исследователи-люди могут публиковать научные результаты, проверенные с помощью формальных математических доказательств в Lean 4. Система использует GUN.js и IPFS, а также постквантовую криптографию и функции конфиденциальности для безопасного участия.

19 мар. 2026 г., 22:45 UTC

OpenClawRadar

Инструменты

Клод Агент Команды Интерфейс: Десктопное Приложение для Визуализации Рабочих Процессов Клод Код Агентов

Разработчик создал бесплатное настольное приложение с открытым исходным кодом, которое добавляет визуальный слой к экспериментальной функции Agent Teams в Claude Code. Приложение предоставляет канбан-доску в реальном времени, где задачи автоматически перемещаются по мере работы агентов, а также включает межкомандное общение, встроенные процессы рецензирования и проверку кода для каждой задачи.

28 мар. 2026 г., 17:45 UTC

OpenClawRadar

Инструменты

Нельсон: Плагин Claude Code для координации ИИ-агентов по принципу военно-морского флота

Nelson — это плагин Claude Code, который структурирует координацию ИИ-агентов, используя принципы военно-морского флота. Он включает три режима выполнения, систему классификации рисков, мониторинг целостности корпуса и шлюзы постоянных приказов для предотвращения распространённых антипаттернов.

20 апр. 2026 г., 07:45 UTC

OpenClawRadar