Multi-Agent-Videoproduktion mit Claude: Skriptverträge & Research-Fanout

Ein Entwickler hat eine Multi-Agenten-KI-Pipeline gebaut, die ein Thema (z.B. „Ada Lovelace“) und eine Persona (Kanalidentität, Ton, visueller Stil) aufnimmt und ein vollständiges, kapitelstrukturiertes Bildungs-YouTube-Video (15–20 Min.) produziert. Die Pipeline verwendet Claude als Kern-LLM für das Scripting und orchestriert spezialisierte Agenten für Drehbuchschreiben, Asset-Generierung, Rendering (CUDA auf Windows-Host) und YouTube-Upload.

Drehbuchschreiben mittels Vertragsarchitektur

Um ein 20-minütiges KI-geschriebenes Skript narrativ kohärent über Kapitel hinweg zu halten, die in separaten LLM-Aufrufen geschrieben wurden, verwendet das System einen narrativen Vertrag – ein validiertes JSON-Blueprint, das erstellt wird, bevor Skripttext geschrieben wird. Der Vertrag kodiert vier Einschränkungstypen:

Threads – Handlungsstränge, die in einem Kapitel beginnen und in einem anderen enden müssen, mit einem deklarierten Auszahlungstyp (gelöst, Tragödie usw.)
Entitäten – benannte Personen/Orte mit einem erzwungenen Ersteinführungskapitel, das rückwirkende Erwähnungen verhindert
Erforderliche Fakten – Zitate mit Abhängigkeitskette (Fakt B kann erst auftauchen, wenn Fakt A etabliert ist)
Zeitliche Anker – zeitliche Referenzpunkte, die eine nichtlineare Struktur (Rückblende, In-medias-res) erlauben, während sie intern konsistent bleiben

Der Vertrag wird durch einen Opus → strukturelle Validierung → Sonnet-Überprüfungszyklus (bis zu 3 Runden) generiert. Sonnet prüft semantische Kohärenz (keine verwaisten Entitäten, Threads schließen tatsächlich); der Strukturvalidator führt einen Pydantic-Parse plus zeitliche Einschränkungsprüfung durch. Nachgelagerte Kapitelschreiber sind an den Vertrag gebunden.

Research mittels Fanout

Die Research-Pipeline startet N parallele OutlineAgent-Instanzen, die alle mit demselben Research-Paket arbeiten, aber an verschiedenen Thesenkandidaten. Jeder produziert eine dreistufige Hierarchie: These → Kapitelargumente → Szenenbeats. Ein Verankerungs-/Überarbeitungszyklus läuft unabhängig auf jedem Zweig:

Verankerungsprüfer (Sonnet) markiert blockierende vs. kosmetische Probleme
Revisionsagent wendet Korrekturen an, ohne umzustrukturieren
Qualitätsprüfer prüft auf strukturelle Fehler (thematische Kapitellisten, durchhängende Mitten, zusammenfassende Enden)

Bis zu 3 Überarbeitungsrunden pro Zweig, parallel. Dann bewertet ein einzelner Bewertungsagent jede verfeinerte Gliederung in vier Kategorien:

Kategorie	Gewicht	Was gemessen wird
Konzept-Hook	0,40	CTR-Potenzial; Titel-Falsifizierbarkeit
Trap-Auflösung	0,30	Vollständigkeit der narrativen Auszahlung

Pipeline-Architektur

Die Pipeline ist auf zwei Umgebungen aufgeteilt: Skript- und Asset-Arbeit läuft in einem Linux-Dev-Container (WSL), während das Rendering auf dem Windows-Host läuft, um Zugriff auf CUDA und Videotools zu haben. Agenten kommunizieren über HTTP mit einem leichtgewichtigen Orchestrator. Das System ist phasenbasiert – jeder Schritt (W2.1, W4.3, R3.1 usw.) ist unabhängig wiederholbar. Jede Phase liest und schreibt typisierte Artefaktdateien (JSON-Manifeste, Audiodateien, Bildverzeichnisse), sodass Agenten lose gekoppelt sind.

Integrierte Tools: Live2D, Fish Audio, Sadtalker und andere für Asset-Generierung und Rendering.

📖 Vollständige Quelle lesen: r/ClaudeAI

Multi-Agent-Videoproduktions-Pipeline mit Claude: Skriptvertragsarchitektur und Recherche-Fanout

Drehbuchschreiben mittels Vertragsarchitektur

Research mittels Fanout

Pipeline-Architektur

👀 Siehe auch

Verwenden von Markdown-Dateien als Workflow-Engine für Claude Code in Kubernetes

Gemeinsamer Speicher verwandelt KI-Agenten in Büropolitiker: Ein Agent schreibt Leistungsbeurteilungen

Claude Code KI-Agent steuert physisches iPhone über Barrierefreiheits-APIs

Claude Skill File wendet Verhandlungstheorie auf die E-Mail-Erstellung an