In statistica e in teoria della probabilità , la covarianza di due variabili statistiche o variabili aleatorie è un valore numerico che fornisce una misura di quanto le due varino assieme.
La covarianza di due variabili aleatorie X {\displaystyle X} e Y {\displaystyle Y} è il valore atteso del prodotto delle loro distanze dalla media:
C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] . {\displaystyle \mathrm {Cov} (X,Y)=\mathbb {E} {\Big [}{\big (}X-\mathbb {E} [X]{\big )}(Y-\mathbb {E} [Y]{\big )}{\Big ]}.} La covarianza di X {\displaystyle X} e Y {\displaystyle Y} può anche essere espressa come la differenza tra il valore atteso del loro prodotto e il prodotto dei loro valori attesi:
C o v ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] . {\displaystyle \mathrm {Cov} (X,Y)=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y].} Infatti per la linearità del valore atteso risulta
E [ X Y − X E [ Y ] − E [ X ] Y + E [ X ] E [ Y ] ] = E [ X Y ] − E [ X ] E [ Y ] − E [ X ] E [ Y ] + E [ X ] E [ Y ] = E [ X Y ] − E [ X ] E [ Y ] . {\displaystyle \mathbb {E} {\Big [}XY-X\mathbb {E} [Y]-\mathbb {E} [X]Y+\mathbb {E} [X]\mathbb {E} [Y]{\Big ]}=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y]-\mathbb {E} [X]\mathbb {E} [Y]+\mathbb {E} [X]\mathbb {E} [Y]=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y].} La covarianza rispetta le seguenti proprietà, per variabili aleatorie X {\displaystyle X} , Y {\displaystyle Y} e Z {\displaystyle Z} , e costanti a {\displaystyle a} e b {\displaystyle b} :
Cov ( X , Y ) = Cov ( Y , X ) {\displaystyle {\text{Cov}}(X,Y)={\text{Cov}}(Y,X)\ } Cov ( a X + b , Y ) = a Cov ( X , Y ) {\displaystyle {\text{Cov}}(aX+b,Y)=a{\text{Cov}}(X,Y)\ } Cov ( X + Y , Z ) = Cov ( X , Z ) + Cov ( Y , Z ) {\displaystyle {\text{Cov}}(X+Y,Z)={\text{Cov}}(X,Z)+{\text{Cov}}(Y,Z)\ } Due variabili aleatorie indipendenti hanno covarianza nulla, poiché dalla loro indipendenza segue
E [ X Y ] = E [ X ] E [ Y ] . {\displaystyle \mathbb {E} [XY]=\mathbb {E} [X]\mathbb {E} [Y].} Due variabili aleatorie che hanno covarianza nulla sono incorrelate .
Due variabili aleatorie dipendenti possono essere incorrelate. Ad esempio, se X {\displaystyle X} è una variabile aleatoria di legge uniforme sull'intervallo [ − 1 , 1 ] {\displaystyle [-1,1]} e Y = X 2 {\displaystyle Y=X^{2}} , allora
Cov ( X , Y ) = Cov ( X , X 2 ) = E [ X 3 ] − E [ X ] E [ X 2 ] = 0 − 0 E [ X 2 ] = 0. {\displaystyle \textstyle {\text{Cov}}(X,Y)={\text{Cov}}(X,X^{2})=\mathbb {E} [X^{3}]-\mathbb {E} [X]\mathbb {E} [X^{2}]=0-0\mathbb {E} [X^{2}]=0.} La covarianza può essere considerata una generalizzazione della varianza
Var ( X ) = Cov ( X , X ) {\displaystyle {\text{Var}}(X)={\text{Cov}}(X,X)\ } e compare come termine di correzione nella relazione
Var ( X + Y ) = Var ( X ) + Var ( Y ) + 2 Cov ( X , Y ) . {\displaystyle {\text{Var}}(X+Y)={\text{Var}}(X)+{\text{Var}}(Y)+2{\text{Cov}}(X,Y).} Più in generale, per variabili aleatorie X 1 , … , X n {\displaystyle X_{1},\ldots ,X_{n}} e Y 1 , … , Y m {\displaystyle Y_{1},\ldots ,Y_{m}} vale
Var ( ∑ i X i ) = Cov ( ∑ i X i , ∑ j X j ) = ∑ i , j Cov ( X i , X j ) = ∑ i Var ( X i ) + 2 ∑ i > j Cov ( X i , X j ) , {\displaystyle \textstyle {\text{Var}}(\sum _{i}X_{i})={\text{Cov}}(\sum _{i}X_{i},\sum _{j}X_{j})=\sum _{i,j}{\text{Cov}}(X_{i},X_{j})=\sum _{i}{\text{Var}}(X_{i})+2\sum _{i>j}{\text{Cov}}(X_{i},X_{j}),} come caso particolare di
Cov ( ∑ i X i , ∑ j Y j ) = ∑ i , j Cov ( X i , Y j ) . {\displaystyle \textstyle {\text{Cov}}\left(\sum _{i}X_{i},\sum _{j}Y_{j}\right)=\sum _{i,j}{\text{Cov}}(X_{i},Y_{j}).} In statistica la covarianza di due variabili statistiche X {\displaystyle X} e Y {\displaystyle Y} , indicata come σ X , Y = Cov ( X , Y ) {\displaystyle \textstyle \sigma _{X,Y}={\text{Cov}}(X,Y)} , è un indice di variabilità congiunta.
Su una popolazione di N {\displaystyle N} osservazioni congiunte ( x i , y i ) {\displaystyle (x_{i},y_{i})} , di rispettive medie x ¯ {\displaystyle {\bar {x}}} e y ¯ {\displaystyle {\bar {y}}} , la covarianza osservata è
σ X , Y = 1 N ∑ i = 1 N ( x i − x ¯ ) ( y i − y ¯ ) = 1 N ∑ i = 1 N x i y i − ( 1 N ∑ i = 1 N x i ) ( 1 N ∑ i = 1 N y i ) . {\displaystyle \sigma _{X,Y}={\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})={\frac {1}{N}}\sum _{i=1}^{N}x_{i}y_{i}-\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)\left({\frac {1}{N}}\sum _{i=1}^{N}y_{i}\right).} Uno stimatore della covarianza di n {\displaystyle n} osservazioni congiunte ( x i , y i ) {\displaystyle (x_{i},y_{i})} può essere ottenuto correggendo la formula della covarianza, dividendo per il numero di gradi di libertà. In questo caso il numero di gradi di libertà è dato dal numero delle osservazioni, n {\displaystyle n} , a cui va sottratto il numero di stimatori utilizzati nel computo della covarianza. Nella covarianza entrano le medie campionarie delle x i , y i {\displaystyle x_{i},y_{i}} , e si può dimostrare che il computo di queste medie corrisponde alla sottrazione di 1 solo grado di libertà (non due, come ci si potrebbe aspettare). Perciò lo stimatore della covarianza è dato da
s X , Y = ∑ i = 1 n x i y i n − 1 − ∑ i = 1 n x i n − 1 ∑ i = 1 n y i n . {\displaystyle s_{X,Y}={\frac {\sum _{i=1}^{n}x_{i}y_{i}}{n-1}}-{\frac {\sum _{i=1}^{n}x_{i}}{n-1}}{\frac {\sum _{i=1}^{n}y_{i}}{n}}.} Lo stimatore della covarianza è anche detto covarianza campionaria.
La varianza e la covarianza intervengono per definire l'indice di correlazione di Bravais-Pearson
ρ X , Y = ∑ i ( x i − x ¯ ) ( y i − y ¯ ) ∑ j ( x j − x ¯ ) 2 ∑ k ( y k − y ¯ ) 2 = Cov ( X , Y ) Var ( X ) Var ( Y ) . {\displaystyle \rho _{X,Y}={\frac {\sum _{i}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sqrt {\sum _{j}(x_{j}-{\bar {x}})^{2}\sum _{k}(y_{k}-{\bar {y}})^{2}}}}={\frac {{\text{Cov}}(X,Y)}{\sqrt {{\text{Var}}(X){\text{Var}}(Y)}}}.} La covarianza è limitata dalla disuguaglianza di Cauchy-Schwarz , infatti siano U = ( x 1 − x ¯ , … , x n − x ¯ ) {\displaystyle U=(x_{1}-{\bar {x}},\ldots ,x_{n}-{\bar {x}})} e V = ( y 1 − y ¯ , … , y n − y ¯ ) {\displaystyle V=(y_{1}-{\bar {y}},\ldots ,y_{n}-{\bar {y}})} i vettori degli scarti degli x i {\displaystyle x_{i}} e y i {\displaystyle y_{i}} rispetto alle relative medie, si può applicare la diseguaglianza ottenendo
| ⟨ U , V ⟩ | ≤ ⟨ U , U ⟩ ⟨ V , V ⟩ {\displaystyle |\langle U,V\rangle |\leq {\sqrt {\langle U,U\rangle \langle V,V\rangle }}} che equivale a scrivere
| ∑ i = 1 n ( x i − x ¯ ) ( y i − y ¯ ) | ≤ ∑ i = 1 n ( x i − x ¯ ) 2 ∑ i = 1 n ( y i − y ¯ ) 2 . {\displaystyle \left|\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})\right|\leq {\sqrt {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}.} Moltiplicando per Un fattore 1 / n {\displaystyle 1/n} entrambi i lati si ottiene la relazione
| σ X , Y | ≤ σ X σ Y , {\displaystyle |\sigma _{X,Y}|\leq \sigma _{X}\sigma _{Y},} dove σ X {\displaystyle \sigma _{X}} e σ Y {\displaystyle \sigma _{Y}} sono le deviazioni standard per le due variabili.
Nel caso in cui z = f ( x , y ) {\displaystyle z=f(x,y)} possiamo dire che la covarianza è limitata nell'intervallo
| σ Z | ≤ | ∂ x f ( x , y ) | σ X + | ∂ y f ( x , y ) | σ Y . {\displaystyle |\sigma _{Z}|\leq |\partial _{x}f(x,y)|\sigma _{X}+|\partial _{y}f(x,y)|\sigma _{Y}.} Infatti, l'espressione generale per la deviazione standard di z {\displaystyle z} è
σ Z = | ∂ x f ( x , y ) | 2 σ X 2 + | ∂ y f ( x , y ) | 2 σ Y 2 + 2 | ∂ x f ( x , y ) | | ∂ y f ( x , y ) | σ X , Y . {\displaystyle \sigma _{Z}={\sqrt {|\partial _{x}f(x,y)|^{2}\sigma _{X}^{2}+|\partial _{y}f(x,y)|^{2}\sigma _{Y}^{2}+2|\partial _{x}f(x,y)||\partial _{y}f(x,y)|\sigma _{X,Y}}}.} Il valore massimo (minimo), per monotonia delle funzioni, sarà ottenuto in corrispondenza di σ X , Y = σ X σ Y {\displaystyle \sigma _{X,Y}=\sigma _{X}\sigma _{Y}} ( σ X , Y = − σ X σ Y {\displaystyle \sigma _{X,Y}=-\sigma _{X}\sigma _{Y}} ), quindi il valore corrispondente di σ Z {\displaystyle \sigma _{Z}} massimo sarà
σ Z = | ∂ x f ( x , y ) | 2 σ X 2 + | ∂ y f ( x , y ) | 2 σ Y 2 + 2 | ∂ x f ( x , y ) | | ∂ y f ( x , y ) | σ X σ Y = | ∂ x f ( x , y ) | σ X + | ∂ y f ( x , y ) | σ Y . {\displaystyle \sigma _{Z}={\sqrt {|\partial _{x}f(x,y)|^{2}\sigma _{X}^{2}+|\partial _{y}f(x,y)|^{2}\sigma _{Y}^{2}+2|\partial _{x}f(x,y)||\partial _{y}f(x,y)|\sigma _{X}\sigma _{Y}}}=|\partial _{x}f(x,y)|\sigma _{X}+|\partial _{y}f(x,y)|\sigma _{Y}.} Osserviamo che il valore massimo è dato dalla somma diretta dei contributi delle incertezze tipo moltiplicate per i relativi coefficienti ottenuti linearizzando la relazione. Si dimostra anche che tale formula è generalizzabile al caso di una funzione dipendente da n {\displaystyle n} variabili.