Maximum régularisé — Wikipédia

En mathématiques, un maximum régularisé (smooth maximum) d'une famille indicée $x 1, ..., x n$ de nombres est une approximation lisse de la fonction maximum $max(x 1,..., x n)$ , par une famille paramétrée de fonctions $m α (x 1,..., x n)$ telle que la fonction $m α$ est régulière pour toute valeur réelle de $α$ , et tend vers la fonction maximum pour $α \to \infty$ ou $α \to 0$ . Le concept de minimum régularisé peut être défini de façon similaire. Dans plusieurs cas, une même famille peut servir à approcher les deux fonctions, le maximum pour des valeurs positives très grandes, le minimum vers l'infini négatif :

m_{\alpha }\to \max \ {\textrm {pour}}\ \alpha \to \infty ,\ m_{\alpha }\to \min \ {\textrm {pour}}\ \alpha \to -\infty .

Le terme peut être utilisé pour toute fonction régularisante se comportant de façon similaire à la fonction maximum, sans être paramétrée.

Exemples

Approximations dérivables de la valeur absolue

En utilisant la définition suivante du maximum de deux nombres :

\max(x_{1},x_{2})={\frac {x_{1}+x_{2}+|x_{2}-x_{1}|}{2}}

on peut définir une fonction maximum régularisé en remplaçant le terme en valeur absolue par une fonction lisse équivalente, comme ${\textstyle {\sqrt {x^{2}+\alpha ^{2}}}}$ ou ${\textstyle x\,\mathrm {erf} (\alpha x)}$ , où $erf$ désigne la fonction d'erreur^[1].

Softmax

Maximum régularisé appliqué aux fonctions $-x$ et $x$ pour plusieurs valeurs de coefficients. On voit que la fonction est très lisse pour $α = 0,5$ et plus raide pour $α = 8$ .

Pour de grandes valeurs du paramètre $α > 0$ , la fonction $S α$ définie ci-après, parfois appelée « $α$ -softmax », est une approximation lisse et différentiable de la fonction maximum. Pour des valeurs négatives du paramètre grandes en valeur absolue, elle approche le minimum. La fonction $α$ -softmax est définie par^[2] :

S_{\alpha }(x_{1},\ldots ,x_{n})={\frac {\sum _{i=1}^{n}x_{i}\mathrm {e} ^{\alpha x_{i}}}{\sum _{i=1}^{n}\mathrm {e} ^{\alpha x_{i}}}}

$S α$ a les propriétés suivantes :

$S_{\alpha }{\underset {\alpha \to +\infty }{\longrightarrow }}\max$
$S 0$ renvoie la moyenne arithmétique
$S_{\alpha }{\underset {\alpha \to -\infty }{\longrightarrow }}\min$

Le gradient de $S α$ est lié à la fonction softmax et vaut

\nabla _{x_{i}}S_{\alpha }(x_{1},\ldots ,x_{n})={\frac {\mathrm {e} ^{\alpha x_{i}}}{\sum _{j=1}^{n}\mathrm {e} ^{\alpha x_{j}}}}[1+\alpha (x_{i}-S_{\alpha }(x_{1},\ldots ,x_{n}))].

Ceci rend la fonction softmax intéressante pour des techniques d'optimisation utilisant la descente de gradient.^{[réf. souhaitée]}^[3]

Normes de Hölder

Article détaillé : Moyenne d'ordre p.

Une forme de maximum régularisé peut être basée sur une moyenne généralisée. Par exemple, pour des valeurs $x 1, ..., x n$ positives, on peut utiliser une moyenne d'ordre $α > 1$ , soit

S_{\alpha }(x_{1},\ldots ,x_{n})=\left({\frac {1}{n}}\sum _{j=1}^{n}x_{j}^{\alpha }\right)^{\frac {1}{\alpha }}.

LogSumExp

Article détaillé : LogSumExp.

Un autre maximum régularisé est connu sous le nom « LogSumExp »:

\mathrm {LSE} (x_{1},\ldots ,x_{n})=\ln(\exp(x_{1})+\ldots +\exp(x_{n}))

La fonction peut être normalisée si les $x i$ sont tous positifs, menant à une fonction définie sur $[0 , +\infty[n$ vers $[0 , +\infty[$ :

g(x_{1},\ldots ,x_{n})=\ln(\exp(x_{1})+\ldots +\exp(x_{n})-(n-1))

Le terme $(n - 1)$ est un coefficient de correction pour prendre en compte que $exp(0) = 1$ , assurant ainsi qu'on ait bien $g (0, ... ,0) = 0$ si tous les $x i$ sont nuls.

La fonction LogSumExp peut être paramétrée pour éviter les artefacts de lissage. On appelle cette forme « $α$ -quasimax », définie par^[2]:

{\mathcal {Q}}_{\alpha }(x_{1},\ldots ,x_{n})={\frac {1}{\alpha }}\mathrm {LSE} (\alpha x_{1},\ldots ,\alpha x_{n})={\frac {1}{\alpha }}\ln(\exp(\alpha x_{1})+\ldots +\exp(\alpha x_{n}))

Utilisation dans des méthodes numériques

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

Les maximums lisses ont un intérêt dans les recherches d'extrema sur des ensembles de données discrètes^[4] ou des algorithmes d'optimisation par descente du gradient.

Voir aussi

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Smooth maximum » (voir la liste des auteurs).

↑ (en) Koushik Biswas, Sandeep Kumar, Shilpak Banerjee et Ashish Kumar Pandey, « Smooth Maximum Unit: smooth activation function for deep networks using smoothing maximum technique », CoRR, vol. abs/2111.04682,‎ 2021 (arXiv 2111.04682, lire en ligne)
↑ ^{a et b} (en) M. Lange, D. Zühlke, O. Holz et T. Villmann, « Applications of l_p-norms and their smooth approximations for gradient based learning vector quantization », Proc. ESANN,‎ 2014, p. 271-276 (lire en ligne)
↑ (en) Jincheng Mei, Chenjun Xiao, Csaba Szepesvari et Dale Schuurmans, « On the Global Convergence Rates of Softmax Policy Gradient Methods », Proceedings of the 37th International Conference on Machine Learning, Hal Daumé III et Aarti Singh, proceedings of Machine Learning Research, vol. 119,‎ 2020, p. 6820-6829 (lire en ligne)
↑ (en) Gabor Takacs, « Smooth maximum based algorithms for classification, regression, and collaborative filtering », Acta Technica Jaurinensis, vol. 3, n^o 1,‎ 2010, p. 27-63

Portail de l'analyse

[1] (en) Koushik Biswas, Sandeep Kumar, Shilpak Banerjee et Ashish Kumar Pandey, « Smooth Maximum Unit: smooth activation function for deep networks using smoothing maximum technique », CoRR, vol. abs/2111.04682,‎ 2021 (arXiv 2111.04682, lire en ligne)

[ESANN-2] {a et b} (en) M. Lange, D. Zühlke, O. Holz et T. Villmann, « Applications of l_p-norms and their smooth approximations for gradient based learning vector quantization », Proc. ESANN,‎ 2014, p. 271-276 (lire en ligne)

[3] (en) Jincheng Mei, Chenjun Xiao, Csaba Szepesvari et Dale Schuurmans, « On the Global Convergence Rates of Softmax Policy Gradient Methods », Proceedings of the 37th International Conference on Machine Learning, Hal Daumé III et Aarti Singh, proceedings of Machine Learning Research, vol. 119,‎ 2020, p. 6820-6829 (lire en ligne)

[4] (en) Gabor Takacs, « Smooth maximum based algorithms for classification, regression, and collaborative filtering », Acta Technica Jaurinensis, vol. 3, n^o 1,‎ 2010, p. 27-63

[1]

[2]

[3]

[4]