Netflix выпускает VOID: модель удаления объектов и взаимодействий на видео на Hugging Face.

Что делает VOID
VOID удаляет объекты из видео вместе со всеми взаимодействиями, которые они вызывают в сцене — не только вторичными эффектами вроде теней и отражений, но и физическими взаимодействиями, такими как падение предметов при удалении человека.
Технические требования
- Требуется видеокарта с 40 ГБ+ видеопамяти (например, A100)
- Построена на CogVideoX-Fun-V1.5-5b-InP
- Дообучена для видеоинпейнтинга с квадмаской, учитывающей взаимодействия
- Квадмаска — это 4-значная маска, которая кодирует: основной объект (удалить), области перекрытия, затронутые области (падающие предметы, смещённые объекты) и фон (оставить)
- Разрешение: 384x672 (по умолчанию)
- Максимум кадров: 197
- Планировщик: DDIM
- Точность: BF16 с квантованием FP8 для эффективности памяти
Файлы модели
void_pass1.safetensors— Базовая модель инпейнтинга (обязательна)void_pass2.safetensors— Уточнение с искажённым шумом для временной согласованности (опционально)
Первого прохода достаточно для большинства видео. Второй проход добавляет инициализацию скрытых переменных с оптическим потоком для улучшения временной согласованности в длинных клипах.
Быстрый старт
Включённый блокнот обрабатывает настройку, загружает модели, запускает вывод на примере видео и показывает результат.
git clone https://github.com/netflix/void-model.git
cd void-modelИспользование через CLI
# Установите зависимости
pip install -r requirements.txt
Загрузите базовую модель
huggingface-cli download alibaba-pai/CogVideoX-Fun-V1.5-5b-InP
--local-dir ./CogVideoX-Fun-V1.5-5b-InP
Загрузите чекпоинты VOID
huggingface-cli download netflix/void-model
--local-dir .
Запустите вывод первого прохода на примере
python inference/cogvideox_fun/predict_v2v.py
--config config/quadmask_cogvideox.py
--config.data.data_rootdir= "./sample"
--config.experiment.run_seqs= "lime"
--config.experiment.save_path= "./outputs"
--config.video_model.transformer_path= "./void_pass1.safetensors"
Формат входных данных
Для каждого видео нужны три файла в папке:
input_video.mp4— исходное видеоquadmask_0.mp4— 4-значная маска (0=удалить, 63=перекрытие, 127=затронуто, 255=оставить)prompt.json— {"bg": "описание сцены после удаления"}
Репозиторий включает конвейер генерации масок (VLM-MASK-REASONER/), который создаёт квадмаски из исходных видео с помощью SAM2 + Gemini.
Детали обучения
- Обучена на парных контрафактных видео, сгенерированных из двух источников: HUMOTO (взаимодействия человек-объект, отрендеренные в Blender с физической симуляцией) и Kubric (взаимодействия только объектов с использованием Google Scanned Objects)
- Обучение проводилось на 8 видеокартах A100 80 ГБ с использованием DeepSpeed ZeRO Stage 2
Архитектура
- Основа: CogVideoX 3D Transformer (5 млрд параметров)
- Вход: Видео + квадмаска + текстовое описание сцены после удаления
📖 Прочитать полный источник: HN AI Agents
👀 Смотрите также

Кодекс Соединенных Штатов доступен в виде репозитория Git с полной историей изменений.
Свод законов США доступен в виде Git-репозитория, где всё федеральное законодательство хранится в файлах Markdown. Каждый коммит представляет собой снимок состояния на определённый момент времени с 2013 года по настоящее время, что позволяет разработчикам использовать команды git diff, git log и git blame для отслеживания изменений в законодательстве.

Проверка структурных галлюцинаций с открытым исходным кодом для конвейеров ИИ-агентов
Новый инструмент с открытым исходным кодом предоставляет четыре супрессора для обнаружения структурных сбоев в конвейерах ИИ-агентов, включая проверку обоснованности, обнаружение инъекций в промпты, валидацию JSON и проверку ответов инструментов. Доступен как REST API и MCP-сервер с бесплатным тарифом 500 запросов/месяц.

Исправление потери памяти в OpenClaw с помощью плагина Mem0
Агенты OpenClaw испытывают потерю памяти из-за сжатия контекста, которое перезаписывает файлы, такие как MEMORY.md. Плагин Mem0 решает эту проблему, вынося память за пределы окна контекста с функциями авто-вспоминания и авто-захвата.

Создание локального открытого AI-рабочего пространства с использованием Rust и Tauri
Изучите полностью локальное, открытое пространство ИИ, созданное с использованием Rust, Tauri и sqlite-vec, без бэкенда на Python.