Lokale-First Filmzusammenfassungspipeline mit Whisper + CLIP + Ollama

Ein Entwickler hat eine automatisierte Pipeline gebaut, die jeden Film in ein erzähltes Zusammenfassungsvideo verwandelt. Der Stack ist vollständig lokal: Whisper für die Transkription, CLIP für die Szenenzuordnung, Ollama (oder OpenAI/Gemini/Anthropic) für die Skripterstellung, Edge TTS für die Sprachausgabe und FFmpeg für das Rendern.
So funktioniert es
- Eingabe: Einfach eine Filmdatei über eine einfache Web-Oberfläche hochladen.
- Transkription: Whisper extrahiert Dialoge und Zeitstempel.
- Szenenzuordnung: CLIP identifiziert visuelle Szenen, die zur Erzählung passen.
- Skripterstellung: Ollama (oder ein beliebiger API-Anbieter) schreibt ein prägnantes Zusammenfassungsskript.
- Sprachausgabe + Rendern: Edge TTS erzeugt die Erzählung, FFmpeg setzt alles zu einem finalen Video zusammen.
Der gesamte Prozess läuft lokal mit Ollama, aber Sie können auch entfernte LLM-APIs (OpenAI, Gemini, Anthropic) anschließen. Die Gesamtlaufzeit beträgt etwa 15 Minuten. Keine manuelle Bearbeitung erforderlich.
Für wen es gedacht ist
Entwickler, die automatisierte Videogenerierungs-Pipelines bauen, oder alle, die in großem Umfang Filmzusammenfassungen ohne Cloud-Abhängigkeiten produzieren möchten.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude Code Sitzungsdatenverlust: Backup-Skript für Windows & Mac
Nutzer berichten, dass Claude Code stillschweigend Sitzungsdaten verliert. Hier ist ein kostenloses, automatisiertes Backup-Skript für Windows und Mac mit PowerShell und launchd.

Sentinel: Selbst gehostete Agenten-Plattform für Claude Code-Abonnenten
Sentinel ist eine kostenlose, Open-Source-Agentenplattform, die direkt auf Ihrem bestehenden Claude Code OAuth-Token läuft, ohne API-Overhead. Sie bietet eine saubere Operator-Benutzeroberfläche mit Echtzeit-Browser-Automatisierung über integriertes VNC und umfasst Funktionen wie Git-Gating, Sitzungsprotokolle und strukturiertes hierarchisches Gedächtnis.

Open-Source-Selbstheilungsfunktion für KI-Agenten erkennt und behebt Fehler automatisch
Eine neue Open-Source-Fähigkeit ermöglicht es KI-Agenten, automatisch Fehler zu erkennen, Ursachen zu diagnostizieren und Lösungen umzusetzen. Sie umfasst einen Fehler-Scanner für Cron-Jobs, Sub-Agenten und Deploy-Logs sowie eine Datenbank, die aus früheren Lösungen lernt.

Kontext CLI: Anmeldeinformations-Broker für KI-Codierungsagenten
Kontext CLI ist ein auf Go basierender Credential-Broker, der KI-Coding-Agenten kurzlebige Zugriffstoken anstelle von langlebigen API-Schlüsseln bereitstellt. Es nutzt RFC 8693 Token Exchange, streamt Audit-Logs für jeden Tool-Aufruf und funktioniert bereits heute mit Claude Code.