Maximum régularisé — Wikipédia

En mathématiques, un maximum régularisé (smooth maximum) d'une famille indicée x1, ..., xn de nombres est une approximation lisse de la fonction maximum max(x1,...,xn), par une famille paramétrée de fonctions mα(x1,...,xn) telle que la fonction mα est régulière pour toute valeur réelle de α, et tend vers la fonction maximum pour α → ∞ ou α → 0 . Le concept de minimum régularisé peut être défini de façon similaire. Dans plusieurs cas, une même famille peut servir à approcher les deux fonctions, le maximum pour des valeurs positives très grandes, le minimum vers l'infini négatif :

Le terme peut être utilisé pour toute fonction régularisante se comportant de façon similaire à la fonction maximum, sans être paramétrée.

Approximations dérivables de la valeur absolue

En utilisant la définition suivante du maximum de deux nombres :

on peut définir une fonction maximum régularisé en remplaçant le terme en valeur absolue par une fonction lisse équivalente, comme ou , où erf désigne la fonction d'erreur[1].

Softmax
Maximum régularisé appliqué aux fonctions –x et x pour plusieurs valeurs de coefficients. On voit que la fonction est très lisse pour α = 0,5 et plus raide pour α = 8.

Pour de grandes valeurs du paramètre α > 0, la fonction Sα définie ci-après, parfois appelée « α-softmax », est une approximation lisse et différentiable de la fonction maximum. Pour des valeurs négatives du paramètre grandes en valeur absolue, elle approche le minimum. La fonction α-softmax est définie par[2] :

Sα a les propriétés suivantes :

  1. S0 renvoie la moyenne arithmétique

Le gradient de Sα est lié à la fonction softmax et vaut

Ceci rend la fonction softmax intéressante pour des techniques d'optimisation utilisant la descente de gradient.[réf. souhaitée][3]

Normes de Hölder

Une forme de maximum régularisé peut être basée sur une moyenne généralisée. Par exemple, pour des valeurs x1, ..., xn positives, on peut utiliser une moyenne d'ordre α > 1, soit

LogSumExp

Un autre maximum régularisé est connu sous le nom « LogSumExp »:

La fonction peut être normalisée si les xi sont tous positifs, menant à une fonction définie sur [0 , +∞[n vers [0 , +∞[:

Le terme (n – 1) est un coefficient de correction pour prendre en compte que exp(0) = 1, assurant ainsi qu'on ait bien g(0, ... ,0) = 0 si tous les xi sont nuls.

La fonction LogSumExp peut être paramétrée pour éviter les artefacts de lissage. On appelle cette forme « α-quasimax », définie par[2]:

Utilisation dans des méthodes numériques

[modifier | modifier le code]

Les maximums lisses ont un intérêt dans les recherches d'extrema sur des ensembles de données discrètes[4] ou des algorithmes d'optimisation par descente du gradient.

Références

[modifier | modifier le code]
  1. (en) Koushik Biswas, Sandeep Kumar, Shilpak Banerjee et Ashish Kumar Pandey, « Smooth Maximum Unit: smooth activation function for deep networks using smoothing maximum technique », CoRR, vol. abs/2111.04682,‎ (arXiv 2111.04682, lire en ligne)
  2. a et b (en) M. Lange, D. Zühlke, O. Holz et T. Villmann, « Applications of lp-norms and their smooth approximations for gradient based learning vector quantization », Proc. ESANN,‎ , p. 271-276 (lire en ligne)
  3. (en) Jincheng Mei, Chenjun Xiao, Csaba Szepesvari et Dale Schuurmans, « On the Global Convergence Rates of Softmax Policy Gradient Methods », Proceedings of the 37th International Conference on Machine Learning, Hal Daumé III et Aarti Singh, proceedings of Machine Learning Research, vol. 119,‎ , p. 6820-6829 (lire en ligne)
  4. (en) Gabor Takacs, « Smooth maximum based algorithms for classification, regression, and collaborative filtering », Acta Technica Jaurinensis, vol. 3, no 1,‎ , p. 27-63