Flow Maps : Apprendre l'Intégrale des Modèles de Diffusion

Les flow maps sont une nouvelle approche pour accélérer l'échantillonnage des modèles de diffusion en entraînant des réseaux de neurones à prédire l'intégralité du chemin du bruit aux données en une seule fois, plutôt que d'intégrer itérativement les directions tangentes. L'article de blog de Sander Dieleman détaille la théorie et la taxonomie.

Comment fonctionne l'échantillonnage par diffusion aujourd'hui

Les modèles de diffusion standard prédisent la direction tangente (estimation débruitée) à chaque niveau de bruit et effectuent de petits pas pour intégrer le chemin du bruit aux données. Cela nécessite de nombreuses itérations (par exemple, 50 à 1000 pas dans DDPM). Les échantillonneurs déterministes comme DDIM traitent le processus comme une ODE, mais nécessitent toujours une intégration numérique.

Ce que les flow maps font différemment

Une flow map apprend à prédire directement n'importe quel point sur le chemin entre le bruit et les données à partir de n'importe quel autre point sur le même chemin. Au lieu de prédire la tangente en un point, le réseau produit l'intégrale entière — l'échantillon final propre étant donné une entrée bruyante et un niveau de bruit cible. Cela signifie que l'échantillonnage peut être effectué en un ou très peu d'étapes.

Approches d'entraînement

Dieleman catégorise l'entraînement des flow maps en plusieurs stratégies basées sur la taxonomie de Boffi et al. :

Modèles de cohérence : Imposer que la sortie du réseau soit la même pour tous les niveaux de bruit le long d'une trajectoire (auto-cohérence).
Régression directe : Entraîner le réseau à prédire directement les données propres à partir d'un échantillon bruyant à n'importe quel niveau de bruit, en minimisant la perte L2 par rapport à la vérité terrain.
Distillation : Utiliser un modèle de diffusion pré-entraîné comme enseignant pour générer des paires (bruyant, propre), puis entraîner un élève flow map à imiter l'intégrale ODE de l'enseignant.

Le choix dépend de si l'on veut rétropropager à travers le solveur d'ODE (coûteux mais précis) ou l'éviter (moins cher mais potentiellement moins stable).

Considérations pratiques

Dieleman note que les flow maps peuvent être entraînées de zéro (sans enseignant) en exploitant le mappage connu bruit-données dans le cas de la diffusion gaussienne. En pratique, les flow maps offrent :

Échantillonnage plus rapide : 1 à 4 étapes (contre 10 à 50 pour la diffusion distillée).
Apprentissage basé sur les récompenses : La formulation intégrale permet une optimisation directe par gradient des récompenses en aval (par exemple, les métriques de qualité d'image).
Orientabilité : Le conditionnement sur des variables latentes devient plus simple car le chemin de génération entier est une fonction unique.

Applications et extensions

Les flow maps sont appliquées à la génération d'images (par exemple, modèles de cohérence comme LCM, SDXL-Turbo), de vidéos et de données 3D. L'article fait référence à une monographie récente de Lai et al. pour un traitement mathématique plus approfondi.

📖 Lire la source complète : HN AI Agents