Pipeline multi-agent vidéo avec Claude : architecture contrat de script

Un développeur a construit un pipeline IA multi-agent qui prend un sujet (par exemple, « Ada Lovelace ») et une personnalité (identité de la chaîne, ton, style visuel) et produit une vidéo YouTube éducative complète structurée en chapitres (15–20 min). Le pipeline utilise Claude comme LLM central pour l'écriture du script et orchestre des agents spécialisés dans l'écriture du script, la génération d'actifs, le rendu (CUDA sur hôte Windows) et le téléchargement YouTube.

Écriture du script via l'architecture de contrat

Pour garantir la cohérence narrative d'un script généré par IA de 20 minutes à travers des chapitres écrits lors d'appels LLM distincts, le système utilise un contrat narratif — un plan JSON validé généré avant toute écriture de script. Le contrat encode quatre types de contraintes :

Fils — arcs narratifs qui doivent s'ouvrir dans un chapitre et se fermer dans un autre, avec un type de récompense déclaré (résolu, tragédie, etc.)
Entités — personnes/lieux nommés avec un chapitre de première introduction imposé, empêchant les mentions rétroactives
Faits requis — citations enchaînées avec dépendances (le fait B ne peut apparaître avant que le fait A ne soit établi)
Points d'ancrage temporels — points de référence temporelle permettant une structure non linéaire (flashback, in medias res) tout en restant cohérents

Le contrat est généré via une boucle Opus → validation structurelle → révision Sonnet (jusqu'à 3 tours). Sonnet vérifie la cohérence sémantique (pas d'entités orphelines, les fils se ferment réellement) ; le validateur structurel effectue une analyse Pydantic + vérification des contraintes temporelles. Les rédacteurs de chapitres en aval sont liés par le contrat.

Recherche via déploiement

Le pipeline de recherche lance N instances parallèles d'OutlineAgent, chacune travaillant à partir du même package de recherche mais sur différents candidats de thèse. Chacune produit une hiérarchie à trois niveaux : thèse → arguments du chapitre → battements de scène. Une boucle de vérification/révision s'exécute indépendamment sur chaque branche :

Réviseur de vérification (Sonnet) signale les problèmes bloquants vs. les problèmes esthétiques
Agent de révision applique les correctifs sans restructurer
Réviseur de qualité vérifie les défaillances structurelles (listes de chapitres thématiques, milieux effondrés, fins de résumé)

Jusqu'à 3 tours de révision par branche, en parallèle. Ensuite, un seul agent juge évalue chaque plan affiné selon quatre axes :

Axe	Poids	Ce qu'il mesure
Accroche conceptuelle	0,40	Potentiel de CTR ; falsifiabilité du titre
Fermeture des pièges	0,30	Complétude de la récompense narrative

Architecture du pipeline

Le pipeline est réparti entre deux environnements : le travail de script et d'actifs s'effectue dans un conteneur de développement Linux (WSL), tandis que le rendu s'effectue sur l'hôte Windows pour accéder à CUDA et aux outils vidéo. Les agents communiquent via HTTP avec un orchestrateur léger. Le système est basé sur des phases — chaque étape (W2.1, W4.3, R3.1, etc.) est réexécutable indépendamment. Chaque phase lit et écrit des fichiers d'artefacts typés (manifestes JSON, fichiers audio, répertoires d'images) afin que les agents soient faiblement couplés.

Outils intégrés : Live2D, Fish Audio, Sadtalker, et autres pour la génération d'actifs et le rendu.

📖 Lire la source complète : r/ClaudeAI

Pipeline de production vidéo multi-agent avec Claude : Architecture de contrat de script et ventilation de la recherche

Écriture du script via l'architecture de contrat

Recherche via déploiement

Architecture du pipeline

👀 See Also

Expérience pratique de remplacement de la pile d'automation par des serveurs MCP et des LLM locaux

Système Multi-Agent Claude Montre que le Contexte Relationnel Détermine la Continuité de l'Identité

Intégrer OpenClaw avec Obsidian pour une Base de Connaissances IA Privée

Utilisation de Codex CLI pour automatiser l'installation d'OpenClaw sur macOS