Flots génératifs — Wikipédia

Un modèle génératif basé sur les flots est une instance de modèles génératifs utilisé dans l'apprentissage automatique qui modélise explicitement une distribution de probabilité en exploitant les flots normalisant[1],[2],[3], qui est une méthode probabiliste utilisant la formule de changement de variable pour transformer une distribution simple, souvent une loi normal ou uniforme, en une distribution complexe.

La modélisation directe de la vraisemblance présente de nombreux avantages comme l'entrainement du réseau par maximum de vraisemblance. De plus, de nouveaux échantillons peuvent être produits en échantillonnant à partir de la distribution initiale et en appliquant la transformation induite par le flot.

Méthodologie

[modifier | modifier le code]

Soit une variable aléatoire et sa densité de probabilité. Pour on construit la suite de variables aléatoires à partir de . Les fonctions sont des difféomorphismes, i.e. des bijections différentiables. La densité obtenue sert à modéliser la distribution empirique des données à décrire, et elle est donnée par la formule de changement de variable:

Les fonctions sont modélisées à travers des réseaux de neurones profonds et sont entrainées pour maximiser la log-vraisemblance. Par conséquent, le calcul de la densité doit être efficace. Ceci nécessite d'employer des fonctions facilement inversible disposant de déterminant jacobien simple à calculer.

Références

[modifier | modifier le code]
  1. Tabak et Vanden-Eijnden, « Density estimation by dual ascent of the log-likelihood », Communications in Mathematical Sciences, vol. 8, no 1,‎ , p. 217–233 (DOI 10.4310/CMS.2010.v8.n1.a11, lire en ligne)
  2. Tabak et Turner, « A family of nonparametric density estimation algorithms », Communications on Pure and Applied Mathematics, vol. 66, no 2,‎ , p. 145–164 (DOI 10.1002/cpa.21423, hdl 11336/8930, S2CID 17820269, lire en ligne)
  3. Papamakarios, Nalisnick, Jimenez Rezende et Mohamed, « Normalizing flows for probabilistic modeling and inference », Journal of Machine Learning Research, vol. 22, no 1,‎ , p. 2617–2680 (arXiv 1912.02762, lire en ligne)