Multi-Agent-Videoproduktions-Pipeline mit Claude: Skriptvertragsarchitektur und Recherche-Fanout

Ein Entwickler hat eine Multi-Agenten-KI-Pipeline gebaut, die ein Thema (z.B. „Ada Lovelace“) und eine Persona (Kanalidentität, Ton, visueller Stil) aufnimmt und ein vollständiges, kapitelstrukturiertes Bildungs-YouTube-Video (15–20 Min.) produziert. Die Pipeline verwendet Claude als Kern-LLM für das Scripting und orchestriert spezialisierte Agenten für Drehbuchschreiben, Asset-Generierung, Rendering (CUDA auf Windows-Host) und YouTube-Upload.
Drehbuchschreiben mittels Vertragsarchitektur
Um ein 20-minütiges KI-geschriebenes Skript narrativ kohärent über Kapitel hinweg zu halten, die in separaten LLM-Aufrufen geschrieben wurden, verwendet das System einen narrativen Vertrag – ein validiertes JSON-Blueprint, das erstellt wird, bevor Skripttext geschrieben wird. Der Vertrag kodiert vier Einschränkungstypen:
- Threads – Handlungsstränge, die in einem Kapitel beginnen und in einem anderen enden müssen, mit einem deklarierten Auszahlungstyp (gelöst, Tragödie usw.)
- Entitäten – benannte Personen/Orte mit einem erzwungenen Ersteinführungskapitel, das rückwirkende Erwähnungen verhindert
- Erforderliche Fakten – Zitate mit Abhängigkeitskette (Fakt B kann erst auftauchen, wenn Fakt A etabliert ist)
- Zeitliche Anker – zeitliche Referenzpunkte, die eine nichtlineare Struktur (Rückblende, In-medias-res) erlauben, während sie intern konsistent bleiben
Der Vertrag wird durch einen Opus → strukturelle Validierung → Sonnet-Überprüfungszyklus (bis zu 3 Runden) generiert. Sonnet prüft semantische Kohärenz (keine verwaisten Entitäten, Threads schließen tatsächlich); der Strukturvalidator führt einen Pydantic-Parse plus zeitliche Einschränkungsprüfung durch. Nachgelagerte Kapitelschreiber sind an den Vertrag gebunden.
Research mittels Fanout
Die Research-Pipeline startet N parallele OutlineAgent-Instanzen, die alle mit demselben Research-Paket arbeiten, aber an verschiedenen Thesenkandidaten. Jeder produziert eine dreistufige Hierarchie: These → Kapitelargumente → Szenenbeats. Ein Verankerungs-/Überarbeitungszyklus läuft unabhängig auf jedem Zweig:
- Verankerungsprüfer (Sonnet) markiert blockierende vs. kosmetische Probleme
- Revisionsagent wendet Korrekturen an, ohne umzustrukturieren
- Qualitätsprüfer prüft auf strukturelle Fehler (thematische Kapitellisten, durchhängende Mitten, zusammenfassende Enden)
Bis zu 3 Überarbeitungsrunden pro Zweig, parallel. Dann bewertet ein einzelner Bewertungsagent jede verfeinerte Gliederung in vier Kategorien:
| Kategorie | Gewicht | Was gemessen wird |
|---|---|---|
| Konzept-Hook | 0,40 | CTR-Potenzial; Titel-Falsifizierbarkeit |
| Trap-Auflösung | 0,30 | Vollständigkeit der narrativen Auszahlung |
Pipeline-Architektur
Die Pipeline ist auf zwei Umgebungen aufgeteilt: Skript- und Asset-Arbeit läuft in einem Linux-Dev-Container (WSL), während das Rendering auf dem Windows-Host läuft, um Zugriff auf CUDA und Videotools zu haben. Agenten kommunizieren über HTTP mit einem leichtgewichtigen Orchestrator. Das System ist phasenbasiert – jeder Schritt (W2.1, W4.3, R3.1 usw.) ist unabhängig wiederholbar. Jede Phase liest und schreibt typisierte Artefaktdateien (JSON-Manifeste, Audiodateien, Bildverzeichnisse), sodass Agenten lose gekoppelt sind.
Integrierte Tools: Live2D, Fish Audio, Sadtalker und andere für Asset-Generierung und Rendering.
📖 Vollständige Quelle lesen: r/ClaudeAI
👀 Siehe auch

Verwenden von Markdown-Dateien als Workflow-Engine für Claude Code in Kubernetes
Ein Entwickler hat traditionelle Pipeline-Tools wie Dagster oder Prefect durch einfache englische Markdown-Dateien ersetzt, die Claude Code als Kubernetes CronJob ausführt. Das System koordiniert Schritte, indem es Artefakte auf die Festplatte schreibt, und läuft seit über einem Monat.

Gemeinsamer Speicher verwandelt KI-Agenten in Büropolitiker: Ein Agent schreibt Leistungsbeurteilungen
Ein Entwickler hat ein Shared-Memory-System für KI-Agenten gebaut. Statt die Effizienz zu steigern, begann der Recherche-Agent, Kritik am Code-Agenten zu protokollieren – eine „KI-Arbeitsumgebung mit Personalabteilung“.

Claude Code KI-Agent steuert physisches iPhone über Barrierefreiheits-APIs
Ein Entwickler demonstrierte, wie Claude Code autonom ein physisches iPhone über die Blitz Mac App steuert, wobei WebDriverAgent und Barrierefreiheits-APIs mit einem Null-Abstand-Swipe-Workaround für Taps verwendet werden.

Claude Skill File wendet Verhandlungstheorie auf die E-Mail-Erstellung an
Ein Entwickler erstellte eine SKILL.md-Datei für Claude, die Verhandlungsrahmen wie BATNA, Ankerung und Reziprozität in die E-Mail-Erstellung einfließen lässt. Die Fähigkeit generiert 2-3 Varianten-E-Mails mit Abwägungsanalyse anstelle einer einzigen generischen Antwort.