ИИ-агент Автономно Создает Видео с Использованием Remotion Без Предопределенных Инструментов

Автономный рабочий процесс ИИ-агента для создания видео
Разработчик провёл эксперимент с ИИ-агентом, который автономно выполняет многоэтапные задачи — планирует, пишет код, запускает его, обрабатывает ошибки и повторяет цикл до завершения. В отличие от агентов, которые являются обёртками вокруг ChatGPT, этот работает без заранее заданных структур или инструментов.
Агенту была поставлена цель создать короткий ролик на заданную тему. Он автономно:
- Определил, что ему нужна библиотека для рендеринга видео
- Установил Remotion
- Написал код композиции
- Самостоятельно исправил несколько проблем
- Предоставил готовый видеофайл
Разработчик не открывал никаких инструментов редактирования в течение всего процесса.
Архитектурный сдвиг за рамки улучшенного автодополнения
Важным аспектом была не результат, а архитектура рабочего процесса. Большинство современных ИИ-инструментов работает в фазе «улучшенного автодополнения», где пользователи дают запрос, ИИ предлагает варианты, а пользователи выполняют. Этот агент продемонстрировал другой подход: цель на входе, результат на выходе, со всеми промежуточными шагами, выполняемыми автономно.
Разработчик отметил способность агента самостоятельно выбирать инструменты в зависимости от контекста задачи и упомянул о других направлениях исследований, включая агентов на основе персонажей, которые сохраняют согласованность в различных рабочих процессах, и использование агентов для исследовательских процессов, которые ранее занимали полдня.
Текущее состояние и режимы сбоев
Технология всё ещё находится на ранней стадии и может работать нестабильно, но режимы сбоев дают ценные сведения. Наблюдение за тем, как агент уверенно идёт по неверному пути и самостоятельно исправляет ошибки (или не может этого сделать), показывает, где существуют реальные пробелы в автономных ИИ-системах.
📖 Read the full source: r/openclaw
👀 Смотрите также

Ошибки парсера LM Studio нарушают вызов инструментов и логику Qwen3.5.
Парсер сервера LM Studio содержит три взаимодействующие ошибки, которые тихо ломают вызов инструментов, портят вывод рассуждений и заставляют модели выглядеть хуже, чем они есть. Проблемы затрагивают модели с рассуждениями, такие как Qwen3.5 и DeepSeek-R1, причём одна ошибка, о которой сообщили более года назад, до сих пор не исправлена.

Расширение Compass для Chrome добавляет инструменты навигации в Claude и ChatGPT
Разработчик создал бесплатное расширение для Chrome под названием Compass, которое добавляет мини-карту промптов, фиксированные заголовки при прокрутке, контрольные списки сессий и шаблоны для создания промптов в интерфейсы Claude и ChatGPT, чтобы решить проблемы навигации в длинных диалогах.

LLM-агент строит полноценный рогалик в Godot 4, используя визуальную обратную связь.
Разработчик подключил LLM-агента к Godot 4 с помощью инструмента MCP и дал ему одну инструкцию для создания dungeon crawler FPS. Агент создал полный прототип с 3 комнатами, освещением, боем, врагами и системой прогресса, запуская игру, делая скриншоты и исправляя визуальные проблемы.

Крышка моста: Постоянная двусторонняя передача сообщений между CLI и JavaScript в браузере через CDP
Hubcap Bridge — это новая функция в инструменте командной строки Hubcap CLI, которая создаёт постоянный двусторонний канал обмена сообщениями между локальными процессами и JavaScript, выполняющимся на страницах браузера, через Chrome DevTools Protocol. Это позволяет навыкам Claude Code взаимодействовать с веб-приложениями через их внутренние JavaScript API без необходимости доступа к публичным API.