Regresie liniară

În statistică regresia liniară[1] este o abordare liniară⁠(d) pentru modelarea relației dintre un răspuns scalar și una sau mai multe variabile predictoare (de asemenea cunoscute ca de intrare, explicative sau independente⁠(d)[2]). Cazul unei singure variabile predictoare se numește regresie liniară simplă⁠(d). Pentru mai multe variabile procesul se numește regresie liniară multiplă, pe scurt regresie liniară.[3]

Acest termen este diferit de regresia liniară multivariată⁠(d), unde sunt prezise mai multe variabile dependente corelate în loc de o singură variabilă scalară.[4]

În regresia liniară, relațiile sunt modelate folosind funcții predictoare liniare⁠(d) ale căror parametri necunoscuți sunt estimați din date. Astfel de modele se numesc modele liniare.[5] Cel mai frecvent, media condiționată⁠(d) a răspunsului dat de valorile variabilelor explicative (sau a predictoarelor) se presupune a fi o funcție afină⁠(d) a acelor valori; mai rar se folosește mediana condiționată sau o altă cuantilă⁠(d). La fel ca toate formele de analiza de regresie, regresia liniară se concentrează pe distribuția probabilității condiționate⁠(d) a răspunsului dat de valorile predictoarelor, mai degrabă decât pe distribuția probabilității comune⁠(d) a tuturor acestor variabile, care este domeniul analizei multivariate.

Regresia liniară a fost primul tip de analiză de regresie care a fost studiată riguros și care a fost utilizată pe scară largă în aplicații practice.[6] Acest lucru se datorează faptului că modelele care depind liniar de parametrii lor necunoscuți sunt mai ușor de adaptat decât modelele care sunt legate neliniar de parametrii lor și deoarece proprietățile statistice ale funcțiilor de estimare rezultate sunt mai ușor de determinat.

Regresia liniară are multe utilizări practice. Majoritatea aplicațiilor se încadrează în una dintre următoarele două mari categorii:

  • Dacă scopul este reducerea erorilor în prognoze, regresia liniară poate fi utilizată pentru a potrivi un model predictiv la un set de date observate, de valori ale răspunsului și variabile predictoare. După dezvoltarea unui astfel de model, dacă sunt colectate valori suplimentare ale variabilelor predictoare fără a obține și valorile de răspuns însoțitoare, modelul ajustat poate fi utilizat pentru a face o predicție a răspunsului.
  • Dacă scopul este de a explica variația variabilei de răspuns care poate fi atribuită variației variabilelor predictoare, analiza de regresie liniară poate fi aplicată pentru a cuantifica cât de strânsă este relația dintre răspuns și variabilele prezise (de răspuns, explicate sau independente⁠(d)[2]) și, în special, pentru a determina dacă unele variabile predictoare pot să nu aibă deloc o relație liniară cu răspunsul sau să identifice ce subseturi de variabile predictoare pot conține informații redundante despre răspuns.

Modelele de regresie liniară sunt adesea ajustate folosind metoda celor mai mici pătrate, dar ele pot fi ajustate și în alte moduri, cum ar fi minimizând „lipsa de potrivire” în altă normă. Însă metoda celor mai mici pătrate poate fi utilizată pentru a se realiza și modele care nu sunt liniare. Astfel, deși termenii „cele mai mici pătrate” și „model liniar” sunt strâns legați, ei nu sunt sinonimi.

Regresia liniară cu cele mai mici pătrate, ca mijloc de a găsi o potrivire liniară brută bună la un set de puncte, a fost efectuată de Adrien-Marie Legendre (1805) și Carl Friedrich Gauss (1809) pentru predicția mișcării planetelor. Adolphe Quetelet a fost cel care a elaborat procedura binecunoscută și a folosit-o pe scară largă în științele sociale.[7]

În regresia liniară, se presupune că observațiile (roșu) sunt rezultatul abaterilor aleatorii (verde) dintr-o relație de bază (albastru) între o variabilă dependentă (y) și o variabilă independentă (x)

Fiind dat un set de date de n unități statistice, un model de regresie liniară presupune că relația dintre variabila dependentă y și vectorul variabilei independente x este liniară. Această relație este modelată printr-un termen de perturbare sau variabilă de eroare ε — o variabilă aleatoare neobservată care adaugă „zgomot” relației liniare dintre variabila dependentă și cea independentă. Astfel modelul ia forma

unde cu T este notată transpusa, astfel că xiTβ este s the produsul scalar între vectorii xi și β.

Adesea, aceste n ecuații sunt aranjate împreună și scrise sub formă matricială drept

unde

Notație și terminologie

[modificare | modificare sursă]
  • este vectorul cu valorile observate ale variabilei măsurate (variabila dependentă⁠(d)). Această variabilă este uneori cunoscută și ca variabila prezisă,[2] dar aceasta nu trebuie confundată cu valorile prezise, care sunt notate . Decizia cu privire la care variabilă dintr-un set de date este modelată ca variabilă dependentă și care sunt modelate ca variabile independente se poate baza pe presupunerea că valoarea uneia dintre variabile este cauzată de sau direct influențată de celelalte variabile. Alternativ, poate exista un motiv operațional pentru a modela una dintre variabile în termenii celorlalte, caz în care nu trebuie să existe prezumția de cauzalitate.
  • poate fi văzută ca o matrice de vectori linie sau de vectori coloană n-dimensionali , care sunt cunoscuți ca predictoare (de intrare, explicative sau independente) (a nu se confunda cu conceptul de variabile aleatoare independente).
  • De obicei între valorile predictoare este inclusă o constantă, în special pentru . Elementul corespunzător din β se numește interceptor. Multe proceduri de inferență statistică pentru modele liniare necesită ca o interceptare să fie prezentă, deci este adesea inclusă chiar dacă considerente teoretice sugerează că valoarea sa ar trebui să fie zero.
  • Uneori, una dintre variabilele de intrare poate fi o funcție neliniară a altei funcții de intrare sau a datelor, ca în regresia polinomială⁠(d)[1] și regresia pe porțiuni⁠(d)[2]. Modelul rămâne liniar atâta timp cât este liniar în vectorul parametru β.
  • Valorile xij pot fi văzute fie ca valori observate ale variabilelor aleatoare Xj, fie ca valori fixe alese înainte de observarea variabilei dependente. Ambele interpretări pot fi adecvate în diferite cazuri și, în general, conduc la aceleași proceduri de estimare. Totuși, în aceste două situații sunt utilizate abordări diferite ale analizei asimptotice.
  • este un vector de parametri (p+1)-dimensional, unde este termenul de interceptare (dacă unul este inclus în model — în caz contrar, este p-dimensional). Elementele sale sunt cunoscute ca efecte sau coeficienții regresiei (deși ultimul termen este uneori rezervat efectelor „estimate”). În regresia liniară simplă⁠(d), p = 1, iar coeficientul este cunoscut sub numele de panta regresiei. Elementele acestui vector parametru sunt interpretate ca derivatele parțiale ale variabilei dependente în raport cu diferitele variabile independente.
  • este un vector de valori . Această parte a modelului este numită termenul de eroare, termenul de perturbare (sau, uneori, zgomot, în contrast cu semnalul oferit de restul modelului). Această variabilă surprinde toți ceilalți factori care influențează variabila dependentă y în afară de predictorii x. Relația dintre termenul de eroare și predictori, de exemplu corelația acestora, este o considerație esențială în formularea unui model de regresie liniară, deoarece va determina metoda de estimare adecvată.

Ajustarea unui model liniar la un set de date dat necesită de obicei estimarea coeficienților de regresie astfel încât termenul de eroare este minimizat. De exemplu, pentru minimizare este uzuală folosirea sumei pătratelor erorilor ca măsură a .

Fie o situație în care o minge mică este aruncată în aer și apoi se măsoară înălțimile la care sare hi în diferite momente în timp ti. Fizica afirmă că, ignorând rezistența aerului, relația poate fi modelată drept

unde β1 determină viteza inițială a mingii, β2 este proporțională cu gravitația standard și εi se datorează erorilor de măsurare. Regresia liniară poate fi utilizată pentru a estima valorile lui β1 și β2 din datele măsurate. Acest model este neliniar în variabila timp, dar este liniar în parametrii β1 și β2. Dacă se iau ca variabile predictoare xi = (xi1, xi2)  = (ti, t' „i”2), modelul ia forma standard

Modelele standard de regresie liniară cu tehnici standard de estimare fac o serie de ipoteze despre variabilele predictoare, variabilele de răspuns și relația lor. Au fost dezvoltate numeroase extensii care permit fiecăreia dintre aceste ipoteze să fie relaxate (adică reduse la o formă mai slabă) și, în unele cazuri, eliminate complet. În general, aceste extensii fac procedura de estimare mai complexă și mai consumatoare de timp și pot necesita, de asemenea, mai multe date pentru a produce un model la fel de precis.

Exemplu de regresie polinomială cubică, care este un tip de regresie liniară. Deși regresia polinomială se potrivește cu datele unui model neliniar, ca problemă de estimare statistică este liniară, în sensul că funcția de regresie este liniară în parametrii necunoscuți, care sunt estimați din date. Din acest motiv, regresia polinomială este considerată a fi un caz particular de regresie liniară multiplă.
—– realitatea, —– estimarea, —– limitele corelației.

Ipotezele majore făcute în cadrul modelelor standard de regresie liniară cu tehnici standard de estimare (de exemplu metoda celor mai mici pătrate simplă):

  • Exogenitate slabă. Acest lucru înseamnă în esență că variabilele predictoare x pot fi tratate ca valori fixe, în loc de variabile aleatoare. Aceasta înseamnă, de exemplu, că se presupune că variabilele predictoare sunt lipsite de erori, adică nu sunt afectate de erori de măsurare. Deși în multe cazuri această ipoteză nu este realistă, renunțarea ei duce la modele de erori în variabile semnificativ mai dificile.
  • Liniaritate. Aceasta înseamnă că media variabilei de răspuns este o combinație liniară⁠(d) a parametrilor (coeficienții de regresie) și a variabilelor predictoare. Această ipoteză este mult mai puțin restrictivă decât poate părea la prima vedere. Deoarece variabilele predictoare sunt tratate ca valori fixe (vezi mai sus), liniaritatea este de fapt doar o restricție asupra parametrilor. Variabilele predictoare în sine pot fi transformate în mod arbitrar și, de fapt, pot fi adăugate mai multe copii ale aceleiași variabile predictoare subiacente, fiecare transformată diferit. Această tehnică este utilizată, de exemplu, în regresia polinomială, care utilizează regresia liniară pentru a ajusta variabila de răspuns ca o funcție polinomială arbitrară (până la un grad dat) a unei variabile predictoare. Cu atâta flexibilitate, modelele precum regresia polinomială au adesea „prea multă putere”, în sensul că au tendința de a supraadapta datele. Ca rezultat, de obicei trebuie utilizată un fel de regularizare pentru a preveni soluțiile nerezonabile care rezultă din procesul de estimare.
  • Varianță constantă. Aceasta înseamnă că varianța erorilor nu depinde de valorile variabilelor predictoare. Astfel, variabilitatea răspunsurilor pentru valori fixe date ale predictorilor este aceeași, indiferent de cât de mari sau mici sunt răspunsurile. Acesta nu este adesea cazul, deoarece o variabilă a cărei medie este mare va avea de obicei o varianță mai mare decât una a cărei medie este mică. De exemplu, o persoană al cărei venit anual este estimat a fi de 100.000 de lei poate avea cu ușurință un venit real de 80.000 de lei sau 120.000 de lei — adică o abatere standard de aproximativ 20.000 de lei — în timp ce o altă persoană cu un venit anual estimat de 10.000 de lei este puțin probabil să aibă aceeași abatere standard de 20.000 de lei, deoarece aceasta ar presupune că venitul lor real ar putea varia între −10.000 de lei și 30.000 de lei. (De fapt, după cum arată acest lucru, în multe cazuri — de multe ori aceleași cazuri în care ipoteza erorilor distribuite normal eșuează — varianța sau abaterea standard ar trebui prezisă a fi proporțională cu media, decât drept constantă.) Pentru a verifica această ipoteză, o diagramă de reziduuri în raport cu valorile prezise (sau valorile individuale ale fiecărei predictoare) poate fi examinată pentru un „efect de ventilare” (adică, creșterea sau scăderea distribuției verticale pe măsură ce se deplasează de la stânga la dreapta pe diagramă) . Un grafic al reziduurilor absolute sau pătrate în raport cu valorile prezise (sau cu fiecare predictoare) poate fi, de asemenea, examinat pentru o tendință sau o curbură. În unele cazuri, este posibil să se rezolve problema prin aplicarea unei transformări variabilei de răspuns (de exemplu, potrivirea logaritmului variabilei de răspuns folosind un model de regresie liniară, ceea ce implică faptul că variabila de răspuns în sine are o distribuție log-normală în loc de o distribuție normală).
Pentru a verifica dacă există încălcări ale ipotezelor de liniaritate, variație constantă și independență a erorilor în cadrul unui model de regresie liniară, reziduurile sunt de obicei reprezentate grafic în raport cu valorile prezise (sau cu fiecare dintre predictorii individuali). O împrăștiere aparent aleatorie de puncte în jurul liniei mediane orizontale la 0 este ideală, dar nu poate exclude anumite tipuri de încălcări, cum ar fi autocorelația în erori sau corelarea lor cu una sau mai multe covariabile.
  • Independența erorilor. Aceasta presupune că erorile variabilelor de răspuns sunt necorelate între ele. (Independența statistică este o condiție mai puternică decât simpla lipsă de corelare și adesea nu este necesară, deși poate fi exploatată dacă se știe că este valabilă.) Unele metode precum metoda generalizată a celor mai mici pătrate⁠(d) sunt capabile să gestioneze erorile corelate, deși de obicei necesită mult mai multe date, cu excepția cazului în care se folosește un fel de regularizare pentru a influența modelul spre asumarea erorilor necorelate.
  • Lipsa perfectei multicoliniarități în variabilele predictoare. Pentru metodele standard de estimare cu cele mai mici pătrate, matricea X trebuie să aibă rangul coloanei p complet; în caz contrar, în variabilele predictoare există multicoliniaritate perfectă, ceea ce înseamnă că există o relație liniară între două sau mai multe variabile predictoare. Acest lucru poate fi cauzat de duplicarea accidentală a unei variabile din date (eventual printr-o transformare liniară), care se folosește împreună cu cea originală (de exemplu, aceleași măsurători de temperatură exprimate în grade Fahrenheit și Celsius), sau includerea unei combinații liniare de mai multe variabile în model, cum ar fi media lor. Se poate întâmpla și dacă există prea puține date disponibile în comparație cu numărul de parametri care trebuie estimați (de exemplu, mai puține puncte de date decât coeficienții de regresie). Aproape încălcări ale acestei ipoteze, unde variabilele predictoare sunt foarte corelate, dar nu perfect, pot reduce precizia estimărilor parametrilor. În cazul multicoliniarității perfecte, vectorul parametru β va fi neidentificabil —nu are o soluție unică. Într-un astfel de caz, doar unii dintre parametri pot fi identificați (adică, valorile lor pot fi estimate doar în cadrul unui subspațiu liniar al întregului spațiu al parametrilor Rp ). Au fost dezvoltate metode de potrivire a modelelor liniare cu multicoliniaritate,[8][9][10][11] dintre care unele necesită ipoteze suplimentare, cum ar fi „raritatea efectelor” — că o mare parte a efectelor este exact zero. Însă algoritmii iterați, mai costisitori din punct de vedere al calculului de estimare a parametrilor, cum ar fi cei utilizați în modelele liniare generalizate, nu au această problemă.

În plus față de aceste ipoteze, alte câteva proprietăți statistice ale datelor influențează puternic performanța diferitelor metode de estimare:

  • Relația statistică dintre termenii de eroare și variabilele predictoare joacă un rol important în determinarea dacă o procedură de estimare are proprietăți de eșantionare dezirabile, cum ar fi să fie imparțială și consecventă.
  • Aranjamentul sau distribuția probabilității variabilelor predictoare x are o influență majoră asupra preciziei estimărilor lui β. Eșantionarea și proiectarea experimentelor sunt subdomenii foarte dezvoltate ale statisticii care oferă îndrumări pentru colectarea datelor astfel încât să se obțină o estimare precisă a β.
Seturile de date din cvartetul lui Anscombe sunt concepute pentru a avea aproximativ aceeași draptă de regresie liniară (precum și medii, abateri standard și corelații aproape identice), dar sunt foarte diferite din punct de vedere grafic. Acest lucru ilustrează capcanele de a se baza exclusiv pe un model calculat pentru a înțelege relația dintre variabile.

Un model calculat de regresie liniară poate fi utilizat pentru a identifica relația dintre o singură variabilă predictor xj și variabila de răspuns y atunci când toate celelalte variabile predictoare din modele sunt „ținute fixe”. Mai exact, interpretarea lui βj este modificarea sperată în y pentru o modificare de o unitate a xj când celelalte covariabile sunt menținute fixe, adică valoarea sperată a derivatei parțiale a lui y în raport cu xj. Acesta este uneori numit efectul unic al lui xj asupra lui y. În schimb, efectul marginal al lui xj asupra lui y poate fi evaluat utilizând un coeficient de corelație sau model de regresie liniară simplă, care raportează numai xj la y; acest efect este derivata totală a lui y în raport cu xj.

Trebuie avut grijă atunci când se interpretează rezultatele regresiei, deoarece unele dintre variabilele predictoare ar putea să nu permită modificări marginale (cum ar fi variabilele fictive sau termenul de interceptare), în timp ce altele nu pot fi menținute fixe (v. exemplul de mai sus: ar fi imposibil să se „țină fix” ti și în același timp să se schimbe valoarea lui ti2).

Este posibil ca efectul unic să fie aproape zero chiar și atunci când efectul marginal este mare. Acest lucru poate implica faptul că o altă covariabilă captează toate informațiile din xj, astfel încât, odată ce acea variabilă este în model, nu există nicio contribuție a lui xj la variația lui y. Invers, efectul unic al lui xj poate fi mare, în timp ce efectul său marginal este aproape zero. Acest lucru s-ar întâmpla dacă celelalte covariabile ar explica o mare parte din variația lui y, dar ele explică în principal variația într-un mod care este complementar cu ceea ce este surprins de xj. În acest caz, includerea celorlalte variabile în model reduce partea din variabilitatea lui y care nu are legătură cu xj, întărind astfel relația aparentă cu xj.

Sensul expresiei „ținut fix” poate depinde de modul în care apar valorile variabilelor predictoare. Dacă experimentatorul stabilește direct valorile variabilelor predictoare în conformitate cu proiectul experimentului, comparațiile de interes pot corespunde literal cu comparații între unități ale căror variabile predictoare au fost „ținute fixe” de către experimentator. Alternativ, expresia „ținut fix” se poate referi la o selecție care are loc în contextul analizei datelor. În acest caz, „a ține o variabilă fixă” se limitează la subseturile de date care se întâmplă să aibă o valoare comună pentru variabila predictor dată. Aceasta este singura interpretare a termenului „ținut fix” care poate fi folosită într-un studiu observațional.

Noțiunea de „efect unic” este atrăgătoare atunci când se studiază un sistem complex în care mai multe componente interconectate influențează variabila răspuns. În unele cazuri, poate fi literalmente interpretat ca efectul cauzal al unei intervenții care este legat de valoarea unei variabile predictive. Totuși, s-a susținut că în multe cazuri analiza regresiei multiple nu reușește să clarifice relațiile dintre variabilele predictoare și variabila de răspuns atunci când variabilele predictoare sunt corelate între ele și nu sunt alocate în urma proiectului experimentului.[12]

  1. ^ a b Teodor Silviu Groșan, Regresii liniare (curs), Universitatea Babeș-Bolyai, accesat 2023-06-06, citând pe Steven C. Chapra, Applied Numerical Methods with MATLAB for Engineers and Scientists, 3rd ed., ISBN: 978-0-07-340110-2
  2. ^ a b c d Daniela Zaharie, Modele de regresie neliniară (curs), Universitatea de Vest din Timișoara, accesat 2023-06-08
  3. ^ en David A. Freedman (). Statistical Models: Theory and Practice. Cambridge University Press. p. 26. A simple regression equation has on the right hand side an intercept and an explanatory variable with a slope coefficient. A multiple regression e right hand side, each with its own slope coefficient 
  4. ^ en Rencher, Alvin C.; Christensen, William F. (), „Chapter 10, Multivariate regression – Section 10.1, Introduction”, Methods of Multivariate Analysis, Wiley Series in Probability and Statistics, 709 (ed. 3rd), John Wiley & Sons, p. 19, ISBN 9781118391679 .
  5. ^ en Hilary L. Seal (). „Dezvoltarea istorică a modelului liniar Gauss”. Biometrika. 54 (1/2): 1–24. doi:10.1093/biomet/54.1-2.1. JSTOR 2333849. 
  6. ^ en Yan, Xin (), Linear Regression Analysis: Theory and Computing, World Scientific, pp. 1–2, ISBN 9789812834119, Regression analysis ... is probably one of the oldest topics in mathematical statistics dating back to about two hundred years ago. The earliest form of the linear regression was the least squares method, which was published by Legendre in 1805, and by Gauss in 1809 ... Legendre and Gauss both applied the method to the problem of determining, from astronomical observations, the orbits of bodies about the sun. 
  7. ^ en Stigler, Stephen M. (). The History of Statistics: The Measurement of Uncertainty before 1900Necesită înregistrare gratuită. Cambridge: Harvard. ISBN 0-674-40340-1. 
  8. ^ en Tibshirani, Robert (). „Regression Shrinkage and Selection via the Lasso”. Journal of the Royal Statistical Society, Series B. 58 (1): 267–288. JSTOR 2346178. 
  9. ^ en Efron, Bradley; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (). „Least Angle Regression”. The Annals of Statistics. 32 (2): 407–451. arXiv:math/0406456Accesibil gratuit. doi:10.1214/009053604000000067. JSTOR 3448465. 
  10. ^ en Hawkins, Douglas M. (). „On the Investigation of Alternative Regressions by Principal Component Analysis”. Journal of the Royal Statistical Society, Series C. 22 (3): 275–286. doi:10.2307/2346776. JSTOR 2346776. 
  11. ^ en Jolliffe, Ian T. (). „A Note on the Use of Principal Components in Regression”. Journal of the Royal Statistical Society, Series C. 31 (3): 300–303. doi:10.2307/2348005. JSTOR 2348005. 
  12. ^ en Berk, Richard A. (). „Regression Analysis: A Constructive Critique”. Criminal Justice Review. 32 (3): 301–302. doi:10.1177/0734016807304871. 

Lectură suplimentară

[modificare | modificare sursă]
  • en Cohen, J., Cohen P., West, S.G., & Leona S. Aiken (2003). Applied multiple regression/correlation analysis for the behavioral sciences. (2nd ed.) Hillsdale, NJ: Lawrence Erlbaum Associates
  • en Charles Darwin. The Variation of Animals and Plants under Domestication. (1868) (Chapter XIII describes what was known about reversion in Galton's time. Darwin uses the term "reversion".)
  • en Draper, N.R.; Smith, H. (). Applied Regression Analysis (ed. 3rd). John Wiley. ISBN 978-0-471-17082-2. 
  • en Francis Galton. "Regression Towards Mediocrity in Hereditary Stature," Journal of the Anthropological Institute, 15:246-263 (1886). (Facsimile at: [1])
  • en Robert S. Pindyck and Daniel L. Rubinfeld (1998, 4h ed.). Econometric Models and Economic Forecasts, ch. 1 (Intro, incl. appendices on Σ operators & derivation of parameter est.) & Appendix 4.3 (mult. regression in matrix form).
  • en Pedhazur, Elazar J (). Multiple regression in behavioral research: Explanation and prediction (ed. 2nd). New York: Holt, Rinehart and Winston. ISBN 978-0-03-041760-3. 
  • en Mathieu Rouaud, 2013: Probability, Statistics and Estimation Chapter 2: Linear Regression, Linear Regression with Error Bars and Nonlinear Regression.
  • en National Physical Laboratory (). „Chapter 1: Linear Equations and Matrices: Direct Methods”. Modern Computing Methods. Notes on Applied Science. 16 (ed. 2nd). Her Majesty's Stationery Office. 

Legături externe

[modificare | modificare sursă]