En statistiques , l’erreur quadratique moyenne d’un estimateur θ ^ {\displaystyle {\hat {\theta }}} d’un paramètre θ {\displaystyle \theta } de dimension 1 (mean squared error ( MSE {\displaystyle \operatorname {MSE} } ), en anglais) est une mesure caractérisant la « précision » de cet estimateur. Elle est plus souvent appelée « erreur quadratique » (« moyenne » étant sous-entendu) ; elle est parfois appelée aussi « risque quadratique ».
L’erreur quadratique moyenne est définie par :
Définition — MSE ( θ ^ ) = def E [ ( θ ^ − θ ) 2 ] {\displaystyle \operatorname {MSE} ({\hat {\theta }})\,{\overset {\text{def}}{=}}\,\mathbb {E} \left[({\hat {\theta }}-\theta )^{2}\right]}
Corollaire — Un carré étant toujours positif, on a évidemment MSE ( θ ^ ) ≥ 0 {\displaystyle \operatorname {MSE} ({\hat {\theta }})\geq 0} .
On peut exprimer l’erreur quadratique moyenne en fonction du biais et de la variance de l’estimateur :
Théorème — MSE ( θ ^ ) = Biais ( θ ^ ) 2 + Var ( θ ^ ) {\displaystyle \operatorname {MSE} ({\hat {\theta }})=\operatorname {Biais} ({\hat {\theta }})^{2}+\operatorname {Var} ({\hat {\theta }})}
Démonstration
Par définition de l’estimateur sans biais, E ( θ ¯ ) = θ {\displaystyle \mathbb {E} ({\bar {\theta }})=\theta } , d’où Var ( θ ¯ ) = MSE ( θ ¯ ) {\displaystyle \operatorname {Var} ({\bar {\theta }})=\operatorname {MSE} ({\bar {\theta }})} .
Soit θ ^ α = α θ ¯ {\displaystyle {\hat {\theta }}_{\alpha }=\alpha {\bar {\theta }}} , donc :
par linéarité de l’espérance , E ( θ ^ α ) = E ( α θ ¯ ) = α E ( θ ¯ ) = α θ {\displaystyle \mathbb {E} ({\hat {\theta }}_{\alpha })=\mathbb {E} (\alpha {\bar {\theta }})=\alpha \mathbb {E} ({\bar {\theta }})=\alpha \theta } ; par homogénéité de la variance , Var ( θ ^ α ) = Var ( α θ ¯ ) = α 2 Var ( θ ¯ ) = α 2 MSE ( θ ¯ ) {\displaystyle \operatorname {Var} ({\hat {\theta }}_{\alpha })=\operatorname {Var} (\alpha {\bar {\theta }})=\alpha ^{2}\operatorname {Var} ({\bar {\theta }})=\alpha ^{2}\operatorname {MSE} ({\bar {\theta }})} ; d’où MSE ( θ ^ α ) = ( α θ − θ ) 2 + α 2 MSE ( θ ¯ ) = ( α − 1 ) 2 θ 2 + α 2 MSE ( θ ¯ ) {\displaystyle \operatorname {MSE} ({\hat {\theta }}_{\alpha })=(\alpha \theta -\theta )^{2}+\alpha ^{2}\operatorname {MSE} ({\bar {\theta }})=(\alpha -1)^{2}\theta ^{2}+\alpha ^{2}\operatorname {MSE} ({\bar {\theta }})} .
En dérivant par rapport à α {\displaystyle \alpha } , on trouve MSE ′ ( θ ^ α ) = 2 ( α − 1 ) θ 2 + 2 α MSE ( θ ¯ ) = 2 ( θ 2 + MSE ( θ ¯ ) ) α − 2 θ 2 {\displaystyle \operatorname {MSE} '({\hat {\theta }}_{\alpha })=2(\alpha -1)\theta ^{2}+2\alpha \operatorname {MSE} ({\bar {\theta }})=2\left(\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})\right)\alpha -2\theta ^{2}} .
Comme on a supposé MSE ( θ ¯ ) > 0 {\displaystyle \operatorname {MSE} ({\bar {\theta }})>0} , cette dérivée est une fonction affine de coefficient directeur strictement positif, donc elle s’annule en α 0 = θ 2 θ 2 + MSE ( θ ¯ ) {\displaystyle \alpha _{0}={\frac {\theta ^{2}}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}} , est strictement négative pour α < α 0 {\displaystyle \alpha <\alpha _{0}} , et est strictement positive pour α > α 0 {\displaystyle \alpha >\alpha _{0}} , donc α 0 {\displaystyle \alpha _{0}} est le minimum de MSE ( θ ^ α ) {\displaystyle \operatorname {MSE} ({\hat {\theta }}_{\alpha })} .
L’erreur quadratique moyenne est donc minimale pour θ ^ α 0 = θ 2 θ 2 + MSE ( θ ¯ ) θ ¯ = def θ ˇ {\displaystyle {\hat {\theta }}_{\alpha _{0}}={\frac {\theta ^{2}}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}{\bar {\theta }}\,{\overset {\text{def}}{=}}\,{\check {\theta }}} . Ce minimum vaut :
MSE ( θ ˇ ) = MSE ( θ ^ α 0 ) = ( α 0 − 1 ) 2 θ 2 + α 0 2 MSE ( θ ¯ ) = ( − MSE ( θ ¯ ) θ 2 + MSE ( θ ¯ ) ) 2 θ 2 + ( θ 2 θ 2 + MSE ( θ ¯ ) ) 2 MSE ( θ ¯ ) = θ 2 MSE ( θ ¯ ) 2 + θ 4 MSE ( θ ¯ ) ( θ 2 + MSE ( θ ¯ ) ) 2 = ( θ 2 MSE ( θ ¯ ) ) ( MSE ( θ ¯ ) + θ 2 ) ( θ 2 + MSE ( θ ¯ ) ) 2 = θ 2 MSE ( θ ¯ ) θ 2 + MSE ( θ ¯ ) {\displaystyle {\begin{aligned}\operatorname {MSE} ({\check {\theta }})&=\operatorname {MSE} ({\hat {\theta }}_{\alpha _{0}})\\&=(\alpha _{0}-1)^{2}\theta ^{2}+\alpha _{0}^{2}\operatorname {MSE} ({\bar {\theta }})\\&=\left(-{\frac {\operatorname {MSE} ({\bar {\theta }})}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}\right)^{2}\theta ^{2}+\left({\frac {\theta ^{2}}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}\right)^{2}\operatorname {MSE} ({\bar {\theta }})\\&={\frac {\theta ^{2}\operatorname {MSE} ({\bar {\theta }})^{2}+\theta ^{4}\operatorname {MSE} ({\bar {\theta }})}{\left(\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})\right)^{2}}}\\&={\frac {\left(\theta ^{2}\operatorname {MSE} ({\bar {\theta }})\right)\left(\operatorname {MSE} ({\bar {\theta }})+\theta ^{2}\right)}{\left(\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})\right)^{2}}}\\&={\frac {\theta ^{2}\operatorname {MSE} ({\bar {\theta }})}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}\end{aligned}}}
Remarque : la valeur de θ {\displaystyle \theta } étant inconnue par nature (sinon, on n’en chercherait pas un estimateur), cette formule n’a d’intérêt pratique que si le coefficient θ 2 θ 2 + MSE ( θ ¯ ) {\displaystyle {\tfrac {\theta ^{2}}{\theta ^{2}+\operatorname {MSE} ({\bar {\theta }})}}} se simplifie en une constante indépendante de θ {\displaystyle \theta } , c’est-à-dire si et seulement si MSE ( θ ¯ ) {\displaystyle \operatorname {MSE} ({\bar {\theta }})} est proportionnel à θ 2 {\displaystyle \theta ^{2}} (voir exemple plus bas).
Si les deux estimateurs à comparer sont sans biais, l’estimateur le plus efficace est simplement celui dont la variance est la plus petite. De même, si un estimateur a à la fois un plus grand biais (en valeur absolue) et une plus grande variance qu’un autre estimateur, ce dernier est évidemment meilleur.
Cependant, si un estimateur a un plus grand biais (en valeur absolue) mais une plus petite variance, la comparaison n’est plus immédiate : l’erreur quadratique moyenne permet alors de trancher.
Exemple : Comparons les deux estimateurs les plus courants de la variance :
s n − 1 2 = def 1 n − 1 ∑ i = 1 n ( y i − y ¯ ) 2 {\displaystyle s_{n-1}^{2}\,{\overset {\text{def}}{=}}\,{\frac {1}{n-1}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}} et s n 2 = def 1 n ∑ i = 1 n ( y i − y ¯ ) 2 = n − 1 n s n − 1 2 {\displaystyle s_{n}^{2}\,{\overset {\text{def}}{=}}\,{\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}={\frac {n-1}{n}}s_{n-1}^{2}} Pour un tirage avec remise et une loi de probabilité dont on suppose que le kurtosis normalisé est nul[ note 1] (ex. : la loi normale ), les calculs montrent que (voir Greene, section C.5.1) :
E ( s n − 1 2 ) = σ 2 {\displaystyle \mathbb {E} (s_{n-1}^{2})=\sigma ^{2}} d’où Biais ( s n − 1 2 ) = 0 {\displaystyle \operatorname {Biais} (s_{n-1}^{2})=0} , Var ( s n − 1 2 ) = 2 σ 4 n − 1 {\displaystyle \operatorname {Var} (s_{n-1}^{2})={\frac {2\sigma ^{4}}{n-1}}} d’où MSE ( s n − 1 2 ) = 2 σ 4 n − 1 {\displaystyle \operatorname {MSE} (s_{n-1}^{2})={\frac {2\sigma ^{4}}{n-1}}} ; E ( s n 2 ) = n − 1 n E ( s n − 1 2 ) = n − 1 n σ 2 {\displaystyle \mathbb {E} (s_{n}^{2})={\frac {n-1}{n}}\mathbb {E} (s_{n-1}^{2})={\frac {n-1}{n}}\sigma ^{2}} d’où Biais ( s n 2 ) = − σ 2 n {\displaystyle \operatorname {Biais} (s_{n}^{2})=-{\frac {\sigma ^{2}}{n}}} , Var ( s n 2 ) = ( n − 1 n ) 2 Var ( s n − 1 2 ) = ( n − 1 n ) 2 2 σ 4 n − 1 = 2 ( n − 1 ) σ 4 n 2 {\displaystyle \operatorname {Var} (s_{n}^{2})=\left({\frac {n-1}{n}}\right)^{2}\operatorname {Var} (s_{n-1}^{2})=\left({\frac {n-1}{n}}\right)^{2}{\frac {2\sigma ^{4}}{n-1}}={\frac {2(n-1)\sigma ^{4}}{n^{2}}}} d’où MSE ( s n 2 ) = ( 2 n − 1 ) σ 4 n 2 {\displaystyle \operatorname {MSE} (s_{n}^{2})={\frac {(2n-1)\sigma ^{4}}{n^{2}}}} . L’estimateur s n − 1 2 {\displaystyle s_{n-1}^{2}} est sans biais mais a une plus grande variance (plus faible efficacité) que l’estimateur s n 2 {\displaystyle s_{n}^{2}} .
La comparaison des erreurs quadratiques moyennes donne :
MSE ( s n 2 ) − MSE ( s n − 1 2 ) = σ 4 ( 2 n − 1 n 2 − 2 n − 1 ) = − ( 3 n − 1 ) σ 4 n 2 ( n − 1 ) < 0 {\displaystyle \operatorname {MSE} (s_{n}^{2})-\operatorname {MSE} (s_{n-1}^{2})=\sigma ^{4}\left({\frac {2n-1}{n^{2}}}-{\frac {2}{n-1}}\right)=-{\frac {(3n-1)\sigma ^{4}}{n^{2}(n-1)}}<0} L’estimateur biaisé s n 2 {\displaystyle s_{n}^{2}} est donc meilleur en termes d’erreur quadratique moyenne.
Toujours dans le cas d’un tirage avec remise et d’un kurtosis nul, en appliquant le théorème de minimisation donné plus haut à l’estimateur sans biais s n − 1 2 {\displaystyle s_{n-1}^{2}} , on trouve que l’estimateur s n + 1 2 = n n + 1 s n 2 = n − 1 n + 1 s n − 1 2 {\displaystyle s_{n+1}^{2}={\frac {n}{n+1}}s_{n}^{2}={\frac {n-1}{n+1}}s_{n-1}^{2}} est l’estimateur minimisant l’erreur quadratique moyenne, cette dernière valant alors 2 σ 4 n + 1 {\displaystyle {\frac {2\sigma ^{4}}{n+1}}} .
Il est possible de déterminer si un estimateur est convergent en probabilité à partir de son erreur quadratique moyenne, on a en effet:
Théorème — [ ( lim n → ∞ E ( θ ^ ) = θ e t lim n → ∞ Var ( θ ^ ) = 0 ) ⇔ lim n → ∞ MSE ( θ ^ ) = 0 ] ⇒ θ ^ → p θ {\displaystyle \left[\left(\lim _{n\to \infty }\mathbb {E} ({\hat {\theta }})=\theta \quad \mathbf {et} \quad \lim _{n\to \infty }\operatorname {Var} ({\hat {\theta }})=0\right)\Leftrightarrow \lim _{n\to \infty }\operatorname {MSE} ({\hat {\theta }})=0\right]\Rightarrow {\hat {\theta }}{\xrightarrow {p}}\theta }
La démonstration est faite à la page convergence de variables aléatoires .
Dans un cadre plus général pour un modèle multiparamétrique où l'on cherche à estimer plusieurs paramètres ou pour estimer une fonction f ( θ ) {\displaystyle f(\theta )} de un ou plusieurs paramètres, l'erreur quadratique moyenne pour un estimateur δ {\displaystyle \delta } de f ( θ ) {\displaystyle f(\theta )} est défini par:
Définition — E [ t ( δ − f ( θ ) ) A ( δ − f ( θ ) ) ] {\displaystyle \mathbb {E} \left[^{t}(\delta -f(\theta ))A(\delta -f(\theta ))\right]}
où A est une matrice symétrique définie positive (qui définit donc un produit scalaire ).
↑ Plus généralement, toujours pour un tirage avec remise , on a : Var ( s n − 1 2 ) = ( γ 2 n + 2 n − 1 ) σ 4 {\displaystyle \operatorname {Var} (s_{n-1}^{2})=\left({\frac {\gamma _{2}}{n}}+{\frac {2}{n-1}}\right)\sigma ^{4}} .
(en) William H Greene , Econométrie , Paris, Pearson Education, 2005 , 5e éd. , 943 p. (ISBN 978-2-7440-7097-6 ) , p. 2