Bias (statistica)

In statistica, i termini bias (etimologia incerta^[1]), distorsione o scostamento^[2] sono usati con riferimento a due concetti. Un campione distorto è un campione statistico in cui la probabilità di inclusione nel campione di individui appartenenti alla popolazione dipende dalle caratteristiche della popolazione oggetto di studio. Uno stimatore distorto è uno stimatore che per qualche ragione ha valore atteso diverso dalla quantità che stima; uno stimatore non distorto è detto stimatore corretto.

Se da un lato il termine distorsione può avere una connotazione negativa, ciò non è necessariamente vero nel contesto della statistica. Un campione distorto è in generale non desiderabile; d'altra parte, uno stimatore distorto può essere desiderabile a seconda delle applicazioni.

Campione distorto

Un campione è distorto se la probabilità che un membro della popolazione sia incluso nel campione dipende dalle caratteristiche oggetto dell'inferenza. Un campione distorto fornisce, in generale, una stima falsata delle caratteristiche della popolazione oggetto dell'inferenza. Se, ad esempio, per una popolazione di individui la probabilità di essere inclusi nel campione è tanto più piccola quanto minore è il reddito dell'individuo, il reddito medio campionario risulterà mediamente più alto del reddito medio della popolazione.

Un celebre esempio di inferenza falsata per via di un campione distorto si ha relativamente alle elezioni presidenziali statunitensi del 1936, in cui si contrapponevano Alfred M. Landon e Franklin Delano Roosevelt. Il Literary Digest fece un sondaggio intervistando 2 000 000 di persone secondo il quale il primo avrebbe dovuto vincere le elezioni (ottenne il 57% delle preferenze nel campione). George Gallup ottenne risultati opposti con un campione molto più piccolo (300 000 unità). Alla fine, si verificò il risultato previsto da Gallup. L'errore del Literary Digest nacque dal fatto che il campione venne selezionato usando gli elenchi degli abbonati telefonici e dei proprietari di automobili, all'epoca beni poco diffusi. Questo fece sì che nel campione entrassero prevalentemente cittadini benestanti, ossia che la percentuale di cittadini benestanti presenti nel campione fosse maggiore di quella di cittadini benestanti nella popolazione. Questa circostanza produsse risultati distorti poiché la percentuale di votanti per Roosevelt era maggiore tra le classi meno abbienti, il cui contributo era sottostimato dal Literary Digest, sicché la probabilità di inclusione nel campione dipendeva di fatto dalla caratteristica oggetto di studio.

Questo tipo di errore in un'analisi statistica è anche detto errore non campionario, per distinguerlo dall'errore campionario. Quest'ultimo è connaturato al tipo di problema che si affronta (desumere le caratteristiche di un aggregato attraverso l'osservazione di una parte di esso) ed è tenuto sotto controllo in quanto risponde alle regole del calcolo delle probabilità (non possiamo quantificarlo ma possiamo valutarne la distribuzione di probabilità) e può essere ridotto aumentando la numerosità del campione. Dell'errore non campionario, invece, non sappiamo nulla neanche in termini probabilistici, e l'incremento di informazione campionaria non serve a ridurlo.

Stimatore distorto

Un altro tipo di distorsione in statistica concerne l'uso di statistiche il cui valore atteso è diverso da quello della quantità oggetto di stima. Si supponga di voler stimare il parametro $\vartheta$ tramite uno stimatore ${\hat {\vartheta }}$ (ossia, una qualche funzione dei dati osservati). La distorsione di ${\hat {\vartheta }}$ è definita come:

\operatorname {E} ({\hat {\vartheta }})-\vartheta .

In altri termini l'espressione sopra è il valore atteso dello stimatore ${\hat {\vartheta }}$ meno il vero valore di $\vartheta$ . Ciò può anche scriversi come:

\operatorname {E} ({\hat {\vartheta }}-\vartheta ),

ossia il valore atteso della differenza tra lo stimatore e il vero valore di $\vartheta$ .

Correttezza asintotica

Un requisito meno stringente della correttezza è la correttezza asintotica: non si richiede che lo stimatore ${\hat {\vartheta }}_{n}$ basato sul campione $X_{1},\ldots ,X_{n}$ abbia valore atteso uguale a $\vartheta$ , ma ci si contenta che il suo valore atteso tenda a $\vartheta$ all'aumentare della dimensione del campione

\lim _{n\to \infty }E({\hat {\vartheta }}_{n})=\vartheta ,

ossia, in altre parole, uno stimatore è asintoticamente corretto se la distorsione tende a zero all'aumentare del campione

\lim _{n\to \infty }E({\hat {\vartheta }}_{n}-\vartheta )=0.

Esempio: stimatore della varianza

Si consideri ad esempio un campione $X_{1},\ldots ,X_{n}$ di variabili casuali indipendenti e identicamente distribuite, con valore atteso $\mu$ e varianza $\sigma ^{2}$ . Sia:

{\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}

la media campionaria, e:

S^{2}={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}

la varianza campionaria. Si può mostrare che $S^{2}$ è uno stimatore distorto per $\sigma ^{2}$ ; questo segue dal fatto che:

\operatorname {E} (S^{2})={\frac {n-1}{n}}\sigma ^{2}\neq \sigma ^{2}.

Invece, si può mostrare che lo stimatore corretto è la varianza campionaria corretta $S_{n-1}^{2}$ , ottenuta sostituendo $n-1$ al denominatore, laddove la definizione di $S^{2}$ sopra presentata ha $n$ :

S_{n-1}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\bar {X}})^{2}.

Infatti, per quest'ultima risulta:

\operatorname {E} (S_{n-1}^{2})={\frac {n-1}{n-1}}\sigma ^{2}=\sigma ^{2}.

Se tuttavia il campione è estratto da una popolazione avente distribuzione normale, lo stimatore distorto $S^{2}$ è, sulla base del criterio, comunemente adottato, dell'errore quadratico medio (MSE, dall'inglese Mean Squared Error) preferibile allo stimatore corretto $S_{n-1}^{2}$ . Anche allora, ad ogni modo, la radice quadrata dello stimatore corretto per la varianza della popolazione non è uno stimatore corretto della deviazione standard della popolazione; ciò segue banalmente dalla disuguaglianza di Jensen.

Esempio

Un caso in cui uno stimatore distorto può risultare preferibile a uno corretto è il seguente. Si supponga che $X$ abbia distribuzione di Poisson con parametro $\lambda$ . Si vuole stimare:

\operatorname {P} (X=0)^{2}=e^{-2\lambda }.

La sola funzione del campione che fornisce uno stimatore corretto è:

\tau (X)=(-1)^{X}.

Se il valore di $X$ osservato è 100, la stima sarà 1, sebbene il vero valore della quantità oggetto di stima sia molto probabilmente prossimo allo 0, all'estremo opposto. Se poi il valore di $X$ osservato è 101, allora la stima è ancora meno plausibile: −1, sebbene la quantità oggetto di stima sia ovviamente positiva. Lo stimatore (distorto) di massima verosimiglianza:

\tau '(X)=e^{-2X}

è, infine, preferibile allo stimatore corretto proposto sopra, nel senso che il suo errore quadratico medio:

e^{-4\lambda }-2e^{\lambda (1/e^{2}-3)}+e^{\lambda (1/e^{4}-1)}

è minore; l'errore quadratico medio dello stimatore corretto è infatti:

1-e^{-4\lambda }.

L'errore quadratico medio è una funzione del vero valore di $\lambda$ ; la distorsione dello stimatore di massima verosimiglianza è:

e^{-2\lambda }-e^{\lambda (1/e^{2}-1)}.

Distorsione dello stimatore di massima verosimiglianza

La distorsione di uno stimatore di massima verosimiglianza può essere anche rilevante. Si consideri il seguente esempio: $n$ biglietti, numerati da 1 a $n$ , sono posti in un'urna, e uno è selezionato in maniera casuale; si denoti con $X$ il valore così osservato. Se $n$ non è noto, lo stimatore di massima verosimiglianza di $n$ è $X$ , sebbene il valore atteso di $X$ sia $n/2$ . Si può soltanto essere sicuri che $n$ è almeno $X$ , e probabilmente è maggiore di $X$ . Si osservi che in questo caso uno stimatore "naturale", nonché corretto, per $n$ è $2X-1$ .

Sotto ipotesi abbastanza generali, invece, lo stimatore di massima verosimiglianza è asintoticamente corretto.

Dimensione del campione e livello di confidenza

Una formula diffusa per determinare la dimensione del campione di una popolazione statistica di riferimento, è la seguente^[3]:

n={\frac {{Z}_{\alpha }^{2}N\sigma ^{2}}{e^{2}(N-1)+{Z}_{\alpha }^{2}\sigma ^{2}}},

(1)

dove:

N è la numerosità della popolazione;
n è la numerosità del campione;
$\sigma$ : deviazione standard della popolazione;
e è la (limite di) tolleranza dell'errore, generalmente fissato e compreso fra l'1% (0,01) e il 9% (0,09);
$Z_{\alpha }$ è l' $\alpha$ -quantile della distribuzione normale standard $N(0,1),$ è un numero, i cui valori sono tabellati in funzione del livello di confidenza prescelto.

I valori di $Z_{\alpha }$ in funzione dei livelli di confidenza scelti più di frequente:

Valori di $Z_{\alpha }$	1,28	1,65	1,69	1,75	1,81	1,88	1,96
Livelli di confidenza	80%	90%	91%	92%	93%	94%	95%

Pertanto se lo statistico fissa un livello di confidenza pari al 95%, si dovrà sostituire nella formula (1) il valore $Z_{\alpha }=1,96$ .

Data una popolazione $N$ di 500 individui, e scelto:

un livello di confidenza del 95%, da cui $Z_{\alpha }=1,96$ ;
$\sigma =0,5$ ;
$e=0,05$ .

Sostituendo nella formula (1), si ottiene la dimensione del campione $n$ necessaria:

n={\frac {N\sigma ^{2}Z_{\alpha }^{2}}{e^{2}(N-1)+\sigma ^{2}Z_{\alpha }^{2}}}={\frac {{500}\cdot {0,5}^{2}\cdot {1,64}^{2}}{{0,05}^{2}\cdot (500-1)+{0,5}^{2}\cdot {1,64}^{2}}}={\frac {338,19}{1,9238}}=175,79.

Il risultato si arrotonda all'intero superiore. Per cui: $n=176$ .

Note

^ si veda Etimologia di Bias
^ Si dice anche "campione affetto da bias di valore...".
^ Tamaño de una muestra para una investigación de mercado Trabajo de dos profesoras de la Universidad Rafael Landívar.

Voci correlate

Altri progetti

Wikizionario contiene il lemma di dizionario «Bias (statistica)»

Collegamenti esterni

An Illuminating Counterexample (in inglese)

Portale Matematica

Portale Scienza e tecnica

[1] si veda Etimologia di Bias

[2] Si dice anche "campione affetto da bias di valore...".

[3] Tamaño de una muestra para una investigación de mercado Trabajo de dos profesoras de la Universidad Rafael Landívar.

[1]

[2]

[3]

V · D · M Concetti fondamentali di metrologia, statistica e metodologia della ricerca
Definizioni di base	Misurazione · Misura di probabilità · Proprietà fisica · Grandezza fisica · Parametro · Popolazione statistica · Valore vero · Campione · Misurando · Precisione · Accuratezza · Ripetibilità · Riproducibilità · Significatività · Tolleranza · Sensibilità · Risoluzione (Risoluzione laterale) · Omoschedasticità · Eteroschedasticità · Ipotesi statistica · Ipotesi nulla · Approssimazione · Cifra significativa · Variabile casuale · Normalizzazione · Standardizzazione
Trattamento degli errori	Incertezza di misura · Errore di misurazione · Errore sistematico · Errore statistico · Errore di sensibilità · Falso positivo e falso negativo · Errore assoluto · Errore relativo · Propagazione degli errori · Bias
Minimizzazione dell'errore	Bianco analitico · Taratura · Calibrazione · Rapporto segnale/rumore · Confronto interlaboratorio · Qualità dei dati · Outlier
Campionamento	Spazio campionario · Campionamento statistico · Piano di campionamento · Campionamento ragionato · Campionamento per quote · Campionamento casuale (Campionamento sistematico · Campionamento stratificato · Campionamento a grappoli · Campionamento multistadio) · Campionamento probabilistico
Parametri di varianza	Varianza · Covarianza · Scarto quadratico medio · Devianza · Intervallo dinamico · Coefficiente di variazione
Test	Test di verifica d'ipotesi (Test parametrico· Test non parametrico) · Intervallo di confidenza · Valore p