LetMeWatch: Python-Plugin fügt Claude Videoanalyse via FFmpeg-Szenenerkennung hinzu

Ein Entwickler hat ein Python-Plugin namens LetMeWatch erstellt, das Claude ermöglicht, Videoinhalte zu analysieren, obwohl es keine native Videounterstützung hat. Das Tool adressiert den spezifischen Anwendungsfall, Bildschirmaufnahmen von Fehlern an Claude zur Diagnose zu senden.
So funktioniert es
Das Plugin nutzt die FFmpeg-Szenenerkennung, um nur Frames zu extrahieren, in denen sich die visuellen Inhalte tatsächlich ändern. Es versieht jeden extrahierten Frame mit einem Zeitstempel und gibt sie Claude in Batches weiter. Dieser Ansatz vermeidet die Nutzung von KI-Videomodellen oder komplexer Infrastruktur – er setzt auf Frame-Extraktion in Kombination mit Claudes bestehenden multimodalen Vision-Fähigkeiten.
Technische Umsetzung
- In Python geschrieben (etwa 200 Codezeilen)
- Nutzt FFmpeg zur Szenenerkennung
- Extrahiert Frames nur bei visuellen Veränderungen
- Fügt jedem Frame Zeitstempel hinzu
- Sendet Frames in Batches an Claude
- Funktioniert auf allen Plattformen
- Open Source (verfügbar auf GitHub)
Praktische Anwendung
Der Entwickler testete das Tool, indem er einen Fehler in einer Todo-App aufzeichnete und den Befehl /video-last ausführte. Claude identifizierte erfolgreich die exakte Zeile mit dem Tippfehler durch das Anschauen der Aufnahme. Dies zeigt, wie das Tool zum Debuggen genutzt werden kann, indem Claude Bildschirmaufnahmen von Problemen analysiert.
Das Projekt ist verfügbar unter github.com/BinyaminEden/letmewatch und stellt eine praktische Lösung für Claudes derzeitige Videobeschränkungen dar, indem es bestehende Tools und Claudes Vision-Fähigkeiten nutzt.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Open-Source-Framework für persistente KI-Agenten-Speicherung mit lokaler Speicherung und graphenbasierter Abfrage
Ein Entwickler baut ein Open-Source-Framework für persistente KI-Agenten-Speicherung, das Daten lokal als Markdown-Dateien speichert, Wiki-Links als Graphenkanten nutzt und Git für Versionskontrolle implementiert. Das System verfügt über eine Vier-Signal-Abruftechnik und grafikbewusstes Vergessen basierend auf der ACT-R-Kognitionswissenschaft.

Claude-Code-Protokolldatei reduziert wiederholtes Nachfragen
Ein Entwickler hat eine einzelne .md-Datei für ~/.claude/rules/ erstellt, die den Aufgabentyp und das Risiko aus der ersten Nachricht ableitet und damit die typische Dreifragen-Sequenz von Claude Code vor Arbeitsbeginn eliminiert.

Lokale Qwen-Modelle erreichen Browser-Automatisierung mit schrittweiser Planung und kompakter DOM.
Ein Entwickler fand heraus, dass kleine lokale LLMs wie Qwen 8B und 4B bei der Browser-Automatisierung erfolgreich sind, indem sie schrittweise Planung anstelle von vorab erstellten Mehrschrittplänen verwenden, kombiniert mit einer kompakten semantischen DOM-Darstellung, die den Token-Verbrauch von 50-100K+ auf ~15K für vollständige Abläufe reduziert.

OpenClaw Client fügt Live-API-Kostenverfolgung, Ausgabenlimits und granulare Agentensteuerung hinzu
Der OpenClaw Client bietet jetzt eine Live-Nutzungsoberfläche mit kreisförmigen Fortschrittsbalken, Ausgabenlimits pro Agent, Unter-Agenten-Verwaltung, Skill-Umschaltung und Modellwechsel von verschiedenen Anbietern.