Extrapolation (mathématiques) — Wikipédia

En mathématiques, l'extrapolation est le calcul d'un point d'une courbe dont on ne dispose pas d'équation, à partir d'autres points, lorsque l'abscisse du point à calculer est au-dessus du maximum ou en dessous du minimum des points connus. En dehors de cette particularité, les méthodes sont les mêmes que pour l'interpolation. C'est, d'autre part, une méthode développée par Norbert Wiener en traitement du signal pour la prédiction.

Le choix de la méthode d'extrapolation dépend de la connaissance a priori de la méthode de génération des données[1]. Ensuite, il faut s'intéresser aux propriétés éventuelles des données (dépendance linéaire, continuité, périodicité...).

Extrapolation linéaire

[modifier | modifier le code]

L'extrapolation linéaire consiste à prolonger l'interpolation des données par une droite tangente à la fin des données connues et à l'étendre. Elle ne donne de bons résultats que si les données montrent une corrélation proche de la linéarité.

Si les deux points les plus proches du point de calcul x* à extrapoler sont (xk – 1 , yk – 1) et (xk , yk), l'extrapolation linéaire s'obtient par :

On retrouve l'interpolation linéaire si (xk – 1 < x* < xk). On peut également choisir plusieurs points et construire une extrapolation linéaire par moyennage ou régression.

Régression linéaire simple

[modifier | modifier le code]

On se place dans le plan . Supposons une variable aléatoire Y, dont l'espérance dépend de x de manière affine, mais dont la variance est uniforme :

les paramètres β0 et β1 étant des constantes réelles. Pour une valeur de x donnée, Y(x) suit une loi normale.

Pour estimer la valeur de ces constantes, on dispose de n couples (xi, yi)1 ≤ in, la valeur yi étant une réalisation de Y(xi) ; pour simplifier, on suppose que les xi sont classés par ordre croissant. En sciences expérimentales, les couples (xi, yi) sont des mesures.

La régression linéaire consiste à déterminer des estimations b0 et b1 des paramètres β0 et β1 de la loi. Ainsi, si l'on prend une valeur x quelconque, on estime que l'espérance de Y(x) vaut y* défini par :

Si l'on prend une réalisation de Y(x) — si l'on fait une mesure de Y en x —, la valeur trouvée sera différente de y*, mais on a une probabilité α qu'elle soit comprise dans un intervalle [y* – Δy ; y* + Δy], défini par :

où σ* est une estimation de l'écart type de Y, x est la moyenne des xi, σx est l'estimateur de l'écart type sur x et est le quantile de la loi de Student à n – 2 degrés de liberté pour un risque α.

On voit que cet intervalle de confiance croît lorsque l'on s'éloigne de la moyenne x :

  • tant que (xx)2 est petit devant nσx2, la valeur de Δy est à peu près constante ;
  • si (xx)2 n'est plus négligeable devant nσx2, alors Δy croît et adopte un comportement asymptotique linéaire
    .

En particulier, si (xx)2 n'est pas négligeable devant nσx2 = ∑(xix)2, il n'est pas négligeable devant

Si l'on dispose de nombreux point expérimentaux (n est grand), cela implique que x est à l'extérieur de [x1 ; xn].

On voit donc que si l'on fait une extrapolation — si l'on veut prédire la valeur de E(Y(x)) en dehors de [x1 ; xn] —, alors l'erreur sur cette prédiction croît de manière linéaire.

Extrapolation polynomiale

[modifier | modifier le code]
Extrapolations de Lagrange de la suite 1,2,3. Extrapoler par 4 mène à un polynôme de degré minimal (courbe de couleur cyan).

Une courbe polynomiale passant par tous les points de données ou les derniers (2 pour une extrapolation linéaire, 3 points pour une extrapolation quadratique, etc.). La courbe peut être ensuite prolongée au-delà du dernier point de donnée. Une extrapolation polynomiale peut se réaliser par les techniques d'interpolation lagrangienne ou le calcul d'une série de Newton. Le polynôme résultant peut être utilisé pour extrapoler les données.

Il faut toutefois prendre en compte le phénomène de Runge, qui peut vite créer des estimations inutilisables pour des extrapolations polynomiales de haut degré.

Une conique peut être créée à partir de 5 points près des points finaux des données. Si le résultat est une ellipse ou un cercle, alors l'extrapolation va boucler et revenir sur elle-même. Une parabole ou une hyperbole extrapolée ne bouclera pas mais peut changer de variation.

Une extrapolation au pistolet peut être envisagée pour des données à tendance exponentielle, mais avec des facteurs accélérants ou ralentissants[2]. Cette méthode a par exemple été utilisée pour la progression de l'épidémie du VIH au Royaume-Uni depuis 1987 et son variant CJD pour les années suivantes, avec des résultats satisfaisants[3].

Articles connexes

[modifier | modifier le code]

Liens externes

[modifier | modifier le code]

Notes et références

[modifier | modifier le code]
  1. J. Scott Armstrong et Fred Collopy, « Causal Forces: Structuring Knowledge for Time-series Extrapolation », Journal of Forecasting, vol. 12, no 2,‎ , p. 103–115 (DOI 10.1002/for.3980120205, CiteSeerx 10.1.1.42.40, lire en ligne, consulté le )
  2. AIDSCJDUK.info Main Index
  3. J. Scott Armstrong, « Forecasting by Extrapolation: Conclusions from Twenty-Five Years of Research », Interfaces, vol. 14, no 6,‎ , p. 52–66 (DOI 10.1287/inte.14.6.52, CiteSeerx 10.1.1.715.6481, lire en ligne, consulté le )