Covarianza (probabilità)

In statistica e in teoria della probabilità, la covarianza di due variabili statistiche o variabili aleatorie è un valore numerico che fornisce una misura di quanto le due varino assieme.

Probabilità

Definizione

La covarianza di due variabili aleatorie $X$ e $Y$ è il valore atteso del prodotto delle loro distanze dalla media:

\mathrm {Cov} (X,Y)=\mathbb {E} {\Big [}{\big (}X-\mathbb {E} [X]{\big )}(Y-\mathbb {E} [Y]{\big )}{\Big ]}.

La covarianza di $X$ e $Y$ può anche essere espressa come la differenza tra il valore atteso del loro prodotto e il prodotto dei loro valori attesi:

\mathrm {Cov} (X,Y)=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y].

Infatti per la linearità del valore atteso risulta

\mathbb {E} {\Big [}XY-X\mathbb {E} [Y]-\mathbb {E} [X]Y+\mathbb {E} [X]\mathbb {E} [Y]{\Big ]}=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y]-\mathbb {E} [X]\mathbb {E} [Y]+\mathbb {E} [X]\mathbb {E} [Y]=\mathbb {E} [XY]-\mathbb {E} [X]\mathbb {E} [Y].

Proprietà

La covarianza rispetta le seguenti proprietà, per variabili aleatorie $X$ , $Y$ e $Z$ , e costanti $a$ e $b$ :

${\text{Cov}}(X,Y)={\text{Cov}}(Y,X)\$
${\text{Cov}}(aX+b,Y)=a{\text{Cov}}(X,Y)\$
${\text{Cov}}(X+Y,Z)={\text{Cov}}(X,Z)+{\text{Cov}}(Y,Z)\$

Due variabili aleatorie indipendenti hanno covarianza nulla, poiché dalla loro indipendenza segue

\mathbb {E} [XY]=\mathbb {E} [X]\mathbb {E} [Y].

Due variabili aleatorie che hanno covarianza nulla sono incorrelate.

Due variabili aleatorie dipendenti possono essere incorrelate. Ad esempio, se $X$ è una variabile aleatoria di legge uniforme sull'intervallo $[-1,1]$ e $Y=X^{2}$ , allora

\textstyle {\text{Cov}}(X,Y)={\text{Cov}}(X,X^{2})=\mathbb {E} [X^{3}]-\mathbb {E} [X]\mathbb {E} [X^{2}]=0-0\mathbb {E} [X^{2}]=0.

Varianza

La covarianza può essere considerata una generalizzazione della varianza

{\text{Var}}(X)={\text{Cov}}(X,X)\

e compare come termine di correzione nella relazione

{\text{Var}}(X+Y)={\text{Var}}(X)+{\text{Var}}(Y)+2{\text{Cov}}(X,Y).

Più in generale, per variabili aleatorie $X_{1},\ldots ,X_{n}$ e $Y_{1},\ldots ,Y_{m}$ vale

\textstyle {\text{Var}}(\sum _{i}X_{i})={\text{Cov}}(\sum _{i}X_{i},\sum _{j}X_{j})=\sum _{i,j}{\text{Cov}}(X_{i},X_{j})=\sum _{i}{\text{Var}}(X_{i})+2\sum _{i>j}{\text{Cov}}(X_{i},X_{j}),

come caso particolare di

\textstyle {\text{Cov}}\left(\sum _{i}X_{i},\sum _{j}Y_{j}\right)=\sum _{i,j}{\text{Cov}}(X_{i},Y_{j}).

Statistica

In statistica la covarianza di due variabili statistiche $X$ e $Y$ , indicata come $\textstyle \sigma _{X,Y}={\text{Cov}}(X,Y)$ , è un indice di variabilità congiunta.

Su una popolazione di $N$ osservazioni congiunte $(x_{i},y_{i})$ , di rispettive medie ${\bar {x}}$ e ${\bar {y}}$ , la covarianza osservata è

\sigma _{X,Y}={\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})={\frac {1}{N}}\sum _{i=1}^{N}x_{i}y_{i}-\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)\left({\frac {1}{N}}\sum _{i=1}^{N}y_{i}\right).

Uno stimatore della covarianza di $n$ osservazioni congiunte $(x_{i},y_{i})$ può essere ottenuto correggendo la formula della covarianza, dividendo per il numero di gradi di libertà. In questo caso il numero di gradi di libertà è dato dal numero delle osservazioni, $n$ , a cui va sottratto il numero di stimatori utilizzati nel computo della covarianza. Nella covarianza entrano le medie campionarie delle $x_{i},y_{i}$ , e si può dimostrare che il computo di queste medie corrisponde alla sottrazione di 1 solo grado di libertà (non due, come ci si potrebbe aspettare). Perciò lo stimatore della covarianza è dato da

s_{X,Y}={\frac {\sum _{i=1}^{n}x_{i}y_{i}}{n-1}}-{\frac {\sum _{i=1}^{n}x_{i}}{n-1}}{\frac {\sum _{i=1}^{n}y_{i}}{n}}.

Lo stimatore della covarianza è anche detto covarianza campionaria.

La varianza e la covarianza intervengono per definire l'indice di correlazione di Bravais-Pearson

\rho _{X,Y}={\frac {\sum _{i}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sqrt {\sum _{j}(x_{j}-{\bar {x}})^{2}\sum _{k}(y_{k}-{\bar {y}})^{2}}}}={\frac {{\text{Cov}}(X,Y)}{\sqrt {{\text{Var}}(X){\text{Var}}(Y)}}}.

La covarianza è limitata dalla disuguaglianza di Cauchy-Schwarz, infatti siano $U=(x_{1}-{\bar {x}},\ldots ,x_{n}-{\bar {x}})$ e $V=(y_{1}-{\bar {y}},\ldots ,y_{n}-{\bar {y}})$ i vettori degli scarti degli $x_{i}$ e $y_{i}$ rispetto alle relative medie, si può applicare la diseguaglianza ottenendo

|\langle U,V\rangle |\leq {\sqrt {\langle U,U\rangle \langle V,V\rangle }}

che equivale a scrivere

\left|\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})\right|\leq {\sqrt {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}.

Moltiplicando per Un fattore $1/n$ entrambi i lati si ottiene la relazione

|\sigma _{X,Y}|\leq \sigma _{X}\sigma _{Y},

dove $\sigma _{X}$ e $\sigma _{Y}$ sono le deviazioni standard per le due variabili.

Nel caso in cui $z=f(x,y)$ possiamo dire che la covarianza è limitata nell'intervallo

|\sigma _{Z}|\leq |\partial _{x}f(x,y)|\sigma _{X}+|\partial _{y}f(x,y)|\sigma _{Y}.

Infatti, l'espressione generale per la deviazione standard di $z$ è

\sigma _{Z}={\sqrt {|\partial _{x}f(x,y)|^{2}\sigma _{X}^{2}+|\partial _{y}f(x,y)|^{2}\sigma _{Y}^{2}+2|\partial _{x}f(x,y)||\partial _{y}f(x,y)|\sigma _{X,Y}}}.

Il valore massimo (minimo), per monotonia delle funzioni, sarà ottenuto in corrispondenza di $\sigma _{X,Y}=\sigma _{X}\sigma _{Y}$ ( $\sigma _{X,Y}=-\sigma _{X}\sigma _{Y}$ ), quindi il valore corrispondente di $\sigma _{Z}$ massimo sarà

\sigma _{Z}={\sqrt {|\partial _{x}f(x,y)|^{2}\sigma _{X}^{2}+|\partial _{y}f(x,y)|^{2}\sigma _{Y}^{2}+2|\partial _{x}f(x,y)||\partial _{y}f(x,y)|\sigma _{X}\sigma _{Y}}}=|\partial _{x}f(x,y)|\sigma _{X}+|\partial _{y}f(x,y)|\sigma _{Y}.

Osserviamo che il valore massimo è dato dalla somma diretta dei contributi delle incertezze tipo moltiplicate per i relativi coefficienti ottenuti linearizzando la relazione. Si dimostra anche che tale formula è generalizzabile al caso di una funzione dipendente da $n$ variabili.

Voci correlate

Collegamenti esterni

(EN) Michael McDonough, covariance, su Enciclopedia Britannica, Encyclopædia Britannica, Inc.
(EN) Eric W. Weisstein, Covarianza, su MathWorld, Wolfram Research.

Controllo di autorità	Thesaurus BNCF 47720 · GND (DE) 4140520-1

Portale Matematica

Portale Scienza e tecnica

Portale Statistica

V · D · M Concetti fondamentali di metrologia, statistica e metodologia della ricerca
Definizioni di base	Misurazione · Misura di probabilità · Proprietà fisica · Grandezza fisica · Parametro · Popolazione statistica · Valore vero · Campione · Misurando · Precisione · Accuratezza · Ripetibilità · Riproducibilità · Significatività · Tolleranza · Sensibilità · Risoluzione (Risoluzione laterale) · Omoschedasticità · Eteroschedasticità · Ipotesi statistica · Ipotesi nulla · Approssimazione · Cifra significativa · Variabile casuale · Normalizzazione · Standardizzazione
Trattamento degli errori	Incertezza di misura · Errore di misurazione · Errore sistematico · Errore statistico · Errore di sensibilità · Falso positivo e falso negativo · Errore assoluto · Errore relativo · Propagazione degli errori · Bias
Minimizzazione dell'errore	Bianco analitico · Taratura · Calibrazione · Rapporto segnale/rumore · Confronto interlaboratorio · Qualità dei dati · Outlier
Campionamento	Spazio campionario · Campionamento statistico · Piano di campionamento · Campionamento ragionato · Campionamento per quote · Campionamento casuale (Campionamento sistematico · Campionamento stratificato · Campionamento a grappoli · Campionamento multistadio) · Campionamento probabilistico
Parametri di varianza	Varianza · Covarianza · Scarto quadratico medio · Devianza · Intervallo dinamico · Coefficiente di variazione
Test	Test di verifica d'ipotesi (Test parametrico· Test non parametrico) · Intervallo di confidenza · Valore p