LetMeWatch: Python-плагин добавляет анализ видео в Claude через обнаружение сцен с помощью FFmpeg

Разработчик создал плагин на Python под названием LetMeWatch, который позволяет Клоду анализировать видеоконтент, несмотря на отсутствие у него встроенной поддержки видео. Этот инструмент решает конкретную задачу отправки скринкастов с ошибками Клоду для их диагностики.
Как это работает
Плагин использует обнаружение сцен в FFmpeg для извлечения только тех кадров, где изображение действительно меняется. Он добавляет временную метку к каждому извлечённому кадру и передаёт их Клоду партиями. Этот подход позволяет обойтись без моделей ИИ для видео или сложной инфраструктуры — он полагается на извлечение кадров в сочетании с существующими мультимодальными зрительными возможностями Клода.
Техническая реализация
- Написан на Python (~200 строк кода)
- Использует FFmpeg для обнаружения сцен
- Извлекает кадры только при визуальных изменениях
- Добавляет временные метки к каждому кадру
- Отправляет кадры Клоду партиями
- Работает на всех платформах
- Открытый исходный код (доступен на GitHub)
Практическое применение
Разработчик протестировал инструмент, записав ошибку в приложении для списка дел и выполнив команду /video-last. Клод успешно определил точную строку с опечаткой, просмотрев запись. Это демонстрирует, как инструмент можно использовать для отладки, заставляя Клода анализировать скринкасты с проблемами.
Проект доступен по адресу github.com/BinyaminEden/letmewatch и представляет собой практичное решение текущих ограничений Клода в работе с видео, используя существующие инструменты и его зрительные возможности.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

McPherson AI выпускает два новых навыка для операций в сфере быстрого питания на платформе ClawHub: диагностику стоимости продуктов и аудит утечек рабочего времени.
На ClawHub опубликованы два новых бесплатных навыка: qsr-food-cost-diagnostic еженедельно выявляет проблемы с себестоимостью с помощью четырёхуровневой диагностики, а qsr-labor-leak-auditor обеспечивает ежедневный контроль рабочего времени с оповещениями в середине недели для предотвращения перерасхода.

Создание самообновляющегося руководства по стилю письма для контента с использованием ИИ
Команда, создающая платформу для извлечения голоса Noren, разработала руководство по стилю в формате Markdown на 117 строк, которое переписывается после каждой опубликованной статьи, используя Claude для соблюдения правил и запрещая слова, звучащие как ИИ, такие как 'cadence' и 'optimize'.

Два паттерна для предотвращения деградации памяти ИИ-агентов: AutoDream и Скептический поиск.
OpenClaw представляет две модели с лицензией MIT для решения проблемы деградации файловой памяти ИИ: AutoDream для ночной консолидации памяти и Skeptical Retrieval для оценки памяти с учетом затухания. Обе работают вместе в самосовершенствующемся цикле, чтобы контекст агента оставался актуальным.

Обход изоляции песочницы NemoClaw для локального агента Nemotron 9B
Разработчик обошёл изоляцию песочницы NemoClaw, чтобы запустить полностью локального агента с использованием Nemotron 9B и вызовом инструментов на одной видеокарте RTX 5090. Подход включал настройку iptables, пользовательский TCP-ретранслятор и перевод вызовов инструментов в реальном времени.