Mapas de Fluxo: Integral de Difusão para Amostragem Mais Rápida

Os mapas de fluxo são uma nova abordagem para acelerar a amostragem de modelos de difusão, treinando redes neurais para prever todo o caminho do ruído aos dados em uma única etapa, em vez de integrar iterativamente direções tangenciais. O post de blog de Sander Dieleman detalha a teoria e a taxonomia.

Como a Amostragem por Difusão Funciona Atualmente

Modelos de difusão padrão preveem a direção tangente (estimativa de ruído removido) em cada nível de ruído e dão pequenos passos para integrar o caminho do ruído aos dados. Isso requer muitas iterações (por exemplo, 50–1000 passos em DDPM). Amostradores determinísticos como DDIM tratam o processo como uma EDO, mas ainda exigem integração numérica.

O que os Mapas de Fluxo Fazem de Diferente

Um mapa de fluxo aprende a prever diretamente qualquer ponto no caminho entre ruído e dados a partir de qualquer outro ponto no mesmo caminho. Em vez de prever a tangente em um ponto, a rede gera a integral completa — a amostra limpa final, dado uma entrada ruidosa e um nível de ruído alvo. Isso significa que a amostragem pode ser feita em uma ou muito poucas etapas.

Abordagens de Treinamento

Dieleman categoriza o treinamento de mapas de fluxo em várias estratégias baseadas na taxonomia de Boffi et al.:

Modelos de consistência: Garantem que a saída da rede seja a mesma para todos os níveis de ruído ao longo de uma trajetória (autoconsistência).
Regressão direta: Treinam a rede para prever os dados limpos diretamente de uma amostra ruidosa em qualquer nível de ruído, minimizando a perda L2 em relação ao valor real.
Destilação: Usam um modelo de difusão pré-treinado como professor para gerar pares (ruidoso, limpo) e então treinam um aluno de mapa de fluxo para imitar a integral da EDO do professor.

A escolha depende se você deseja retropropagar através do resolvedor de EDO (caro, mas preciso) ou evitá-lo (mais barato, mas potencialmente menos estável).

Considerações Práticas

Dieleman observa que mapas de fluxo podem ser treinados do zero (sem professor) aproveitando o mapeamento conhecido de ruído para dados no caso de difusão gaussiana. Na prática, mapas de fluxo oferecem:

Amostragem mais rápida: 1–4 passos (vs. 10–50 para difusão destilada).
Aprendizado baseado em recompensa: A formulação integral permite otimização direta baseada em gradiente de recompensas posteriores (por exemplo, métricas de qualidade de imagem).
Controlabilidade: O condicionamento em variáveis latentes se torna mais simples porque todo o caminho de geração é uma única função.

Aplicações e Extensões

Mapas de fluxo estão sendo aplicados em geração de imagens (por exemplo, modelos de consistência como LCM, SDXL-Turbo), vídeo e dados 3D. O post faz referência a um monografia recente de Lai et al. para um tratamento matemático mais aprofundado.

📖 Leia a fonte completa: HN AI Agents