Desvio padrão – Wikipédia, a enciclopédia livre

	Ouça o artigo (info); noicon
	Este áudio foi criado a partir da revisão datada de 9 de março de 2017 e pode não refletir mudanças posteriores ao artigo (ajuda).
	Mais artigos audíveis

Em probabilidade, o desvio padrão ou desvio padrão populacional (comumente representado pela letra grega $\sigma$ ) é uma medida de dispersão em torno da média populacional de uma variável aleatória. O termo possui também uma acepção específica no campo da estatística, na qual também é chamado de desvio padrão amostral (comumente representado pela letra latina $s$ ) e indica uma medida de dispersão dos dados em torno de média amostral. Um baixo desvio padrão indica que os pontos dos dados tendem a estar próximos da média ou do valor esperado.^[1] Um alto desvio padrão indica que os pontos dos dados estão espalhados por uma ampla gama de valores. O desvio padrão populacional ou amostral é a raiz quadrada da variância populacional ou amostral correspondente, de modo a ser uma medida de dispersão que seja um número não negativo e que use a mesma unidade de medida dos dados fornecidos.^[2]^[3]^[4]

Tanto em probabilidade quanto em estatística, o desvio padrão é usado para expressar outros conceitos matemáticos importantes como o coeficiente de correlação, o coeficiente de variação ou a alocação ótima de Neyman, dentre outros. Há também outras medidas de desvio como o desvio médio absoluto, que fornecem propriedades matemáticas diferentes a partir do desvio padrão.^[5] O desvio padrão é mais simples, porém mais robusto que o desvio médio absoluto na prática.^[6]^[7] Além de expressar a variabilidade da população, o desvio padrão comumente é usado para medir a confiança em cálculos estatísticos e geralmente permite sintetizar os resultados de uma experiência repetida várias vezes.^[8] Por exemplo, a margem de erro de um conjunto de dados é determinada pelo cálculo do desvio padrão da média ou do desvio padrão populacional inverso da raiz quadrada do tamanho da amostra, se a mesma pesquisa for repetida várias vezes.^[9]

Esta derivação do desvio padrão geralmente é chamada de erro padrão da estimativa ou erro padrão da média (em referência à média). O erro padrão da média é calculado a partir do desvio padrão das médias, as quais poderiam ser computadas a partir de uma população se um número infinito de amostras e uma média para cada amostra fossem considerados. A margem de erro de uma pesquisa é calculada a partir do erro padrão da média (produto do desvio padrão populacional e do inverso da raiz quadrada do tamanho da amostra), e cerca do dobro do erro padrão da média é a metade da largura de 95% do intervalo de confiança para a média (populacional).^[10]

O desvio padrão é calculado em todas as áreas que usam probabilidade e estatística, em particular biologia, finanças, física e pesquisas em geral. Em ciência, os pesquisadores comumente reportam o desvio padrão dos dados experimentais. Em geral, apenas os efeitos mais de dois desvios padrões distantes do esperado são considerados estatisticamente significativos – por meio de erro aleatório normal ou variação nas medições podem-se distinguir os efeitos prováveis dos efeitos genuínos.^[11] Quando apenas uma amostra dos dados da população está disponível, o termo desvio padrão amostral pode referir-se tanto à quantidade mencionada acima quanto a uma quantidade modificada que seja uma estimativa não enviesada do desvio padrão populacional. Quando o desvio padrão populacional não é conhecido, o seu valor é aproximado por meio do desvio padrão amostral.^[10]

História

O desvio padrão é uma grandeza que remete ao século XIX, no contexto do desenvolvimento da estatística no Reino Unido. Enquanto o conceito de medida de dispersão foi criado por Abraham de Moivre e usado em seu livro The Doctrine of Chances em 1718,^[12] o termo desvio padrão foi pontualmente usado pela primeira vez por Karl Pearson em 1894,^[13]^[14] em substituição a termos anteriores como erro médio, utilizado por Carl Friedrich Gauss.^[15] O símbolo $\sigma$ também foi utilizado pela primeira vez por Karl Pearson para representar o desvio padrão.^[14]

Em 1908, William Gosset (mais conhecido sob o pseudônimo Student) definiu o desvio padrão empírico de uma amostra e mostrou que a distinção entre o desvio padrão amostral e o desvio padrão populacional é importante.^[14] Somente em 1918, Ronald Aylmer Fisher definiu a noção da variância no texto The Correlation between Relatives on the Supposition of Mendelian Inheritance.^[16]

Em probabilidade

Definição

Seja $X$ uma variável aleatória com média $\mu$ e valor esperado $E[X]=\mu$ . Então, o desvio padrão de $X$ pela definição é a raiz quadrada da variância de $X$ ou a raiz quadrada do valor médio de $(X-\mu )^{2}$ ^[17]

${\begin{aligned}\sigma &:={\sqrt {{\rm {Var}}[X]}}={\sqrt {\operatorname {E} [(X-\mu )^{2}]}}\\&={\sqrt {\operatorname {E} [X^{2}]+\operatorname {E} [-2\mu X]+\operatorname {E} [\mu ^{2}]}}&={\sqrt {\operatorname {E} [X^{2}]-2\mu \operatorname {E} [X]+\mu ^{2}}}\\&={\sqrt {\operatorname {E} [X^{2}]-2\mu ^{2}+\mu ^{2}}}&={\sqrt {\operatorname {E} [X^{2}]-\mu ^{2}}}\\&={\sqrt {\operatorname {E} [X^{2}]-(\operatorname {E} [X])^{2}}}.\end{aligned}}$

A fórmula foi derivada a partir das propriedades da esperança.^[17]

Desvio padrão de uma variável aleatória discreta

Quando $X$ é uma variável aleatória de um conjunto de dados finito $x_{1},x_{2},\dots ,x_{N}$ , com cada valor tendo a mesma probabilidade ${\frac {1}{N}}$ , o desvio padrão é:

$\sigma ={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-\mu )^{2}}}$ ,

em que $\mu$ é a esperança da variável $X$ , sendo $\mu ={\rm {E}}[X]={\frac {1}{N}}\sum _{i=1}^{N}x_{i}$ .^[17]

Se os valores tiverem probabilidades diferentes em vez de probabilidade iguais (se $x_{1}$ tiver probabilidade $p_{1}$ , se $x_{2}$ tiver probabilidade $p_{2}$ , ... , se $x_{N}$ tiver probabilidade $p_{N}$ ), o desvio padrão é:

$\sigma ={\sqrt {\sum _{i=1}^{N}p_{i}(x_{i}-\mu )^{2}}}$ ,

em que $\mu =\sum _{i=1}^{N}p_{i}x_{i}$ .^[17]

Desvio padrão de uma variável aleatória contínua

O desvio padrão de uma variável aleatória contínua $X$ com função densidade $p(x)$ é:

$\sigma ={\sqrt {\int _{\mathbb {R} }(x-\mu )^{2}\,p(x)\,{\rm {d}}x}}$ ,

em que $\mu ={\rm {E}}[X]=\int _{\mathbb {R} }x\,p(x)\,{\rm {d}}x$ .^[18]

No caso de uma família paramétrica de uma distribuição, o desvio padrão pode ser expresso em termos de parâmetros. Por exemplo, no caso da distribuição log–normal com parâmetros $\mu$ e $\sigma ^{2}$ , com $\ln X$ com distribuição normal com parâmetros $\mu$ e $\sigma ^{2}$ , o desvio padrão é ${\bigl [}(\exp(\sigma ^{2})-1)\exp(2\mu +\sigma ^{2}){\bigr ]}^{\frac {1}{2}}$ .^[19]

Desvio padrão de distribuições de probabilidade conhecidas

Distribuição	Parâmetros	Descrição	Desvio padrão
Distribuição de Bernoulli^[20]	$p$	Distribuição discreta de valor 0 com probabilidade $1-p$ e 1 com probabilidade $p$ .	$\sigma ={\sqrt {p(1-p)}}$
Distribuição binomial^[21]	$p$ e $n\in \mathbb {N} ^{*}$	Distribuição da soma de $n$ variáveis independentes de acordo com a distribuição de Bernoulli de parâmetro $p$ .	$\sigma ={\sqrt {np(1-p)}}$
Distribuição geométrica^[22]	$p$	Distribuição discreta em $\mathbb {N}$ , tal que a probabilidade de se obter o número inteiro $n$ é $(1-p)p^{n}$ .	$\sigma ={\sqrt {\frac {1-p}{p^{2}}}}$
Distribuição uniforme^[23]	$a<b$	Distribuição uniforme contínua em $\mathbb {R}$ , cuja densidade é um múltiplo da função indicadora de $[a,b]$ .	$\sigma ={\frac {b-a}{\sqrt {12}}}$
Distribuição exponencial^[23]	$p$	Distribuição uniforme contínua com suporte $\mathbb {R} _{+}$ , cuja densidade é a função $f\colon x\mapsto p\exp(-px)$ .	$\sigma ={\frac {1}{p}}$
Distribuição de Poisson^[24]	$\lambda$	Distribuição em $\mathbb {N}$ , cuja densidade é a função $f\colon x\mapsto \exp(-\lambda ){\frac {\lambda ^{x}}{x!}}$ , em que $\lambda \in \mathbb {R} _{+}$ .	$\sigma ={\sqrt {\lambda }}$
Distribuição qui-quadrado^[25]	$n$	Distribuição em $\mathbb {R} ^{+}$ , cuja densidade é a função $f\colon x\mapsto {\frac {1}{2^{\frac {n}{2}}\Gamma ({\frac {n}{2}})}}x^{{\frac {n}{2}}-1}e^{-{\frac {x}{2}}}\,$ para todo $x$ positivo, em que $\Gamma$ é a função gama.	$\sigma ={\sqrt {2n}}$
Distribuição gama^[25]	$\alpha$ , $r$ e $x$	Distribuição de probabilidade contínua, cuja densidade é a função $f(x;{\alpha },r)={\frac {\alpha }{\Gamma (r)}}(\alpha x)^{r-1}e^{-\alpha x},$ para todo $x$ positivo, em que $\Gamma$ é a função gama.	$\sigma ={\frac {\sqrt {r}}{\alpha }}$

O desvio padrão de uma distribuição de probabilidade univariada é igual ao desvio padrão de uma variável aleatória com a mesma distribuição. Nem todas as variáveis aleatórias possuem desvio padrão, uma vez que os valores esperados podem não existir. Por exemplo, o desvio padrão de uma variável que segue uma distribuição de Cauchy é indefinido porque seu valor esperado é indefinido.^[26]

Propriedades

O desvio padrão é sempre positivo ou nulo.^[27] O desvio padrão de uma constante é nulo.^[28]
O desvio padrão de uma variável aleatória $X$ à qual foi adicionada uma constante $Y=X+a$ é igual ao desvio padrão da variável aleatória $X$ , uma propriedade chamada invariante por translação.^[28]
O desvio padrão de uma variável multiplicada por uma constante positiva é igual à constante multiplicada pelo desvio padrão da variável, uma propriedade chamada invariante por dilatação, que pode ser resumida como $\sigma _{cX+b}=c\sigma _{X}$ . Propriedades como invariante de dilatação são consequências diretas do teorema de Huygens e das propriedades de valor esperado.^[29]
O desvio padrão da soma algébrica de duas variáveis é igual a $\sigma _{X+Y}={\sqrt {\sigma _{X}^{2}+\sigma _{Y}^{2}+2\sigma _{X}\sigma _{Y}\rho (X,Y)}}$ , em que $\rho (X,Y)$ é o coeficiente de correlação entre as duas variáveis $X$ e $Y$ .^[30]
O desvio padrão segue a desigualdade triangular $\sigma _{X+Y}\leq \sigma _{X}+\sigma _{Y}$ . Existe igualdade se e somente se existe uma relação linear quase certa entre as duas variáveis $Y=cX+b$ . A desigualdade decorre da desigualdade anterior e da desigualdade $-1\leq \rho (X,Y)\leq 1$ .^[31]
A função $\mathbb {R} \rightarrow \mathbb {R} ^{+}:c\rightarrow {\sqrt {(|X-c|^{2})}}$ admite o ponto mínimo $c=E(X)$ . Portanto, assumindo–se no ponto o valor do desvio padrão da variável aleatória $X$ .^[32]

Usos

Em probabilidade, o desvio padrão compara as variáveis ou as suas distribuições.^[17]

Variável aleatória centrada reduzida

Se $X$ é uma variável aleatória com desvio padrão não nulo, é possível fazê–la corresponder à variável aleatória centrada reduzida $Z={\frac {X-{\bar {X}}}{\sigma }}$ . Duas variáveis aleatórias centradas e reduzidas $Z_{1}$ e $Z_{2}$ são fáceis de comparar, uma vez que $E(Z_{i})=0$ e $\sigma _{Z_{i}}=1$ .^[33]

O teorema central do limite é o limite de uma sequência de variáveis aleatórias centradas reduzidas,^[34] os coeficientes de assimetria e a curtose de uma densidade de probabilidade $E[Z^{3}]$ e $E[Z^{4}]$ são usados para comparar diferentes distribuições.^[35]

Coeficiente de correlação

O coeficiente de correlação é outra aplicação do desvio padrão em probabilidade. Se $X$ e $Y$ são duas variáveis aleatórias, o coeficiente de correlação $\rho ={\frac {\operatorname {cov} (X,Y)}{\sigma _{X}\sigma _{Y}}}$ , em que $\operatorname {cov} (X,Y)=E[(X-E[X])\,(Y-E[Y])]={E}[XY]-E[X]E[Y]$ , é a covariância das variáveis aleatórias $X$ e $Y$ . De acordo com a desigualdade de Cauchy–Schwarz $\operatorname {cov} (X,Y)|\leq \sigma _{X}\sigma _{Y}$ , é possível afirmar que $\rho$ assume valores no intervalo $[-1,+1]$ .^[36] Se $\rho =0$ , as duas variáveis aleatórias não são correlacionadas. Se $\rho =\pm 1$ , as duas variáveis aleatórias são linearmente dependentes.^[37]

Regiões de probabilidade dos intervalos da desigualdade de Chebyschev em uma distribuição simétrica.

Regiões de probabilidade dos intervalos da desigualdade de Chebyschev em uma distribuição assimétrica positiva.

Regiões de probabilidade dos intervalos da desigualdade de Chebyschev em uma distribuição assimétrica negativa.

Desigualdade de Bienaymé–Chebyschev

É por meio da desigualdade de Bienaymé–Chebyschev que o desvio padrão aparece como uma medida de dispersão em torno da média. A desigualdade de Bienaymé–Chebyschev afirma que $P(|X-E(X)|\geq k\sigma )\leq {\frac {1}{k^{2}}}$ e mostra que a probabilidade de $X$ desviar–se de $E(X)$ ao longo de $k$ desvios padrões é menor ou igual a ${\frac {1}{k^{2}}}$ .^[38]

A desigualdade de Chebyschev afirma que, para todas as distribuições para as quais o desvio padrão é definido, o volume de dados dentro de uma quantidade de desvios padrões da média são pelo menos os mesmos que os da tabela a seguir.^[39]

Distância da média	População mínima
${\sqrt {2}}\sigma$	50%
$2\sigma$	75%
$3\sigma$	89%
$4\sigma$	94%
$5\sigma$	96%
$6\sigma$	97%
$k\sigma$	$1-{\frac {1}{k^{2}}}$ ^[40]

Em estatística

Para uma população finita e relativamente pequena, o cálculo do desvio padrão é puramente algébrico sem referência à probabilidade. A estatística utiliza o desvio padrão empírico definido por $s={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}$ .^[41]

Em estatística, a população é geralmente muito importante em número (não é possível conhecer todos os valores da população). Entre os recursos utilizados em amostragem e estimativa para avaliar os valores está o desvio padrão.^[42]

Interpretação

Um grande desvio padrão indica que os pontos dos dados estão espalhados longe da média e um pequeno desvio padrão indica que os pontos dos dados estão agrupados perto da média. Por exemplo, cada uma das três populações {0, 0, 14, 14}, {0, 6, 8, 14} e {6, 6, 8, 8} possui média 7. Os desvios padrões são 7, 5 e 1, respectivamente. A terceira população tem um desvio padrão menor porque seus valores são próximos de 7.^[43]

O desvio padrão tem a mesma unidade dos dados. Um exemplo, o conjunto de dados {0, 6, 8, 14} representa as idades de uma população de quatro irmãos em anos. A média é de 7 anos e o desvio padrão é de 5 anos. Outro exemplo, o conjunto de dados {1000, 1006, 1008, 1014} representa as distâncias percorridas por quatro atletas em metros. A média é de 1007 metros e o desvio padrão é de 5 metros.^[44]

O desvio padrão pode servir como medida de incerteza. Em ciências, a precisão de medições repetidas é dada pelo desvio padrão. O desvio padrão é crucial para analisar se as medições batem com a previsão teórica. Se a média das medições estiver muito longe da previsão teórica (distância medida pelo desvio padrão), então a teoria testada provavelmente precisa ser revisada.^[45]

Enquanto o desvio padrão mede a distância dos valores típicos da média, outras medidas estão disponíveis.^[17] É o exemplo do desvio médio absoluto, que pode ser considerado uma medida mais direta da distância da média em comparação à distância da raiz quadrada média inerente ao desvio padrão.^[46]

Interpretação geométrica

Seja uma população com três valores, $x_{1},x_{2},x_{3}$ . Seja um ponto $P=(x_{1},x_{2},x_{3})$ em $\mathbb {R} ^{3}$ . Consideramos a linha $L=\{(r,r,r):r\in \mathbb {R} \}$ que é a diagonal principal, partindo da origem. Se os três valores fossem iguais, então o desvio padrão seria 0 e o ponto $P$ estaria em $L$ . Então, pode–se assumir que o desvio padrão está relacionado à distância entre $P$ e $L$ . Para mover–se ortogonalmente de $L$ para $P$ , é preciso partir do ponto $M=({\overline {x}},{\overline {x}},{\overline {x}})$ , cujas coordenadas são as médias dos valores mencionados acima.^[47]

Derivação de

M=({\overline {x}},{\overline {x}},{\overline {x}})

$M$ está em $L$ . Portanto $M=(l,l,l)$ com $l\in {\textbf {R}}$

A linha $L$ deve ser ortogonal ao vetor de $M$ para $P$ . Portanto:

${\begin{aligned}L\cdot (P-M)&=0\\(r,r,r)\cdot (x_{1}-l,x_{2}-l,x_{3}-l)&=0\\r*(x_{1}-l+x_{2}-l+x_{3}-l)&=0\\r*(\sum \limits _{i}x_{i}-3l)&=0\\\sum \limits _{i}x_{i}-3l&=0\\{\frac {1}{3}}\sum \limits _{i}x_{i}&=l\\{\overline {x}}&=l\end{aligned}}$

A distância entre $P$ e $M$ (igual à distância entre $P$ e $L$ ) ${\sqrt {\sum \limits _{i}(x_{i}-{\overline {x}})^{2}}}$ é igual ao desvio padrão do vetor $x_{1},x_{2},x_{3}$ multiplicado pela raiz quadrada do número de dimensões do vetor (3 dimensões, no caso).^[47]

Regras para dados distribuídos normalmente

De acordo com o teorema central do limite, a distribuição da média de muitas variáveis aleatórias distribuídas independentemente e identicamente tende à distribuição normal

com função densidade $f(x;\mu ,\sigma ^{2})={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}}$ , em que $\mu$ é o valor esperado das variáveis aleatórias, $\sigma$ é igual aos desvios padrões das distribuições dividido por $n^{\frac {1}{2}}$ e $n$ é o número de variáveis aleatórias. Portanto, o desvio padrão é simplesmente uma variável escalonada que ajusta a amplitude da curva, embora ele apareça também na constante de normalização. Se a distribuição dos dados é aproximadamente normal, então a proporção dos valores dos dados dentro do desvio padrão $z$ da média é definida pela função erro $\operatorname {erf} \left({\frac {z}{\sqrt {2}}}\right)$ . Uma proporção que seja menor ou igual a um número $x$ é dada pela função cumulativa

$x={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {x-\mu }{\sigma {\sqrt {2}}}}\right)\right]={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {z}{\sqrt {2}}}\right)\right]$ .^[48]

Se a distribuição dos dados é aproximadamente normal, então cerca de 68% dos valores dos dados estão dentro de um desvio padrão da média ( $\mu \pm \sigma$ , em que $\mu$ é a média aritmética), cerca de 95% estão dentro de dois desvios padrões ( $\mu \pm 2\sigma$ ) e cerca de 99,7% estão dentro de três desvios padrões ( $\mu \pm 3\sigma$ ). Isto é conhecido como a regra empírica 68–95–99,7.^[49]

Para vários valores de $z$ , as porcentagens dos valores esperados dentro ou fora do intervalo simétrico $IC=(-z\sigma ,z\sigma )$ são:

Intervalo de confiança	Proporção dentro	Proporção fora
Intervalo de confiança	Porcentagem	Porcentagem	Fração
$0,674490\sigma$	7001500000000000000♠50%	7001500000000000000♠50%	${\frac {1}{2}}$
$0,994458\sigma$	68%	32%	${\frac {1}{3,125}}$
$1\sigma$	68,2689492%	31,7310508%	${\frac {1}{3,1514872}}$
$1,281552\sigma$	80%	20%	${\frac {1}{5}}$
$1,644854\sigma$	90%	10%	${\frac {1}{10}}$
$1,959964\sigma$	95%	5%	${\frac {1}{20}}$
$2\sigma$	95,4499736%	4,5500264%	${\frac {1}{21,977895}}$
$2,575829\sigma$	99%	1%	${\frac {1}{100}}$
$3\sigma$	99,7300204%	0,2699796%	${\frac {1}{370,398}}$
$3,290527\sigma$	99,9%	0,1%	${\frac {1}{1000}}$
$3,890592\sigma$	99,99%	0,01%	${\frac {1}{10000}}$
$4\sigma$	99,993666%	0,006334%	${\frac {1}{15787}}$
$4,417173\sigma$	99,999%	0,001%	${\frac {1}{100000}}$
$4,5\sigma$	99,9993204653751%	0,0006795346249%	${\frac {3,4}{1000000}}{\text{(em cada lado da média)}}$
$4,891638\sigma$	7001999999000000000♠99.9999%	0,0001%	${\frac {1}{1000000}}$
$5\sigma$	99,9999426697%	0,0000573303%	${\frac {1}{1744278}}$
$5,326724\sigma$	99,99999%	0,00001%	${\frac {1}{10000000}}$
$5,730729\sigma$	99,999999%	0,000001%	${\frac {1}{100000000}}$
$6\sigma$	99,9999998027%	0,0000001973%	${\frac {1}{506797346}}$
$6,109410\sigma$	99,9999999%	0,0000001%	${\frac {1}{1000000000}}$
$6,466951\sigma$	99,99999999%	0,00000001%	${\frac {1}{10000000000}}$
$6,806502\sigma$	99,999999999%	0,000000001%	${\frac {1}{100000000000}}$
$7\sigma$	99,9999999997440%	0,000000000256%	${\frac {1}{390682215445}}$

Em resumo, de acordo com a regra 68–95–99,7, para uma distribuição normal unimodal, gaussiana, simétrica, de afunilamento médio (mesocúrtica):^[49]

68% dos valores encontram–se a uma distância da média inferior a um desvio padrão;^[50]
95% dos valores encontram–se a uma distância da média inferior a duas vezes o desvio padrão;^[50]
99,7% dos valores encontram–se a uma distância da média inferior a três vezes o desvio padrão.^[50]

Exemplos

Desvio padrão populacional

Para um conjunto de dados finito, o desvio padrão é calculado a partir da raiz quadrada da média dos desvios entre os valores e a média dos valores dos dados elevado ao quadrado.^[51]

Sejam as notas de 8 estudantes ( $n=8$ ) 2, 4, 4, 4, 5, 5, 7, 9. A média das notas dos 8 estudantes é: ${\frac {2+4+4+4+5+5+7+9}{8}}=5$ .

Os desvios entre as notas e a média das notas elevados ao quadrado são: ${\begin{array}{lll}(2-5)^{2}=(-3)^{2}=9&&(5-5)^{2}=0^{2}=0\\(4-5)^{2}=(-1)^{2}=1&&(5-5)^{2}=0^{2}=0\\(4-5)^{2}=(-1)^{2}=1&&(7-5)^{2}=2^{2}=4\\(4-5)^{2}=(-1)^{2}=1&&(9-5)^{2}=4^{2}=16.\\\end{array}}$

A variância ou a média de todos os valores é: ${\frac {9+1+1+1+0+0+4+16}{8}}=4$ . O desvio padrão ou a raiz quadrada da variância é ${\sqrt {4}}=2$ . Isto é, o desvio padrão é igual a 2.^[51]

Desvio padrão amostral

O cálculo da raiz quadrada da média dos desvios entre os valores e a média dos valores dos dados elevados ao quadrado é válido apenas se os valores formarem a população total. Se os valores forem parte de uma amostra aleatória extraída de uma população maior (por exemplo, 8 notas extraídas de uma sala de aula de 2 milhões de estudantes), então o denominador da fórmula da variância seria $n-1$ (7) em vez de $n$ (8) e o resultado seria chamado desvio padrão amostral.^[52]

A divisão da soma dos desvios entre as notas e a média das notas por $n-1$ em vez de $n$ fornece uma estimativa não enviesada do desvio padrão populacional maior, o que é conhecido como correção de Bessel.^[53]

Seja a altura média de um homem adulto nos Estados Unidos 1,78 metro ou 178 centímetros, com desvio padrão de 7 centímetros. Então, a maioria dos homens adultos dos Estados Unidos (cerca de 68%) tem entre 7 centímetros acima e 7 centímetros abaixo de 178 centímetros (entre 171 centímetros e 185 centímetros, correspondente a um desvio padrão) e praticamente todos os homens adultos dos Estados Unidos (cerca de 95%) tem entre 14 centímetros acima e 14 centímetros abaixo de 178 centímetros (entre 164 centímetros e 192 centímetros, correspondente a dois desvios padrões). Se o desvio padrão fosse 0 centímetro, então todos os homens adultos dos Estados Unidos teriam 178 centímetros. Se o desvio padrão fosse 50 centímetros, então os homens adultos dos Estados Unidos teriam uma variação muito maior de altura (entre 121 centímetros e 221 centímetros). Três desvios padrões representam 99,7% da amostra da população estudada, assumindo que é uma distribuição normal (em forma de sino).^[52]^[53]

Estimadores

Um estimador é uma função que aproxima–se de um parâmetro de uma população por meio de uma amostra aleatória.^[54] Dois estimadores do desvio padrão são geralmente utilizados. Os estimadores $S_{n}$ ou $S$ e ${S_{n-1}}$ ou $S'$ são expressos em função dos valores da amostra por

$S_{n}={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}}$ e $S_{n-1}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}}={\sqrt {\frac {n}{n-1}}}\cdot S_{n}$ .

${S_{n-1}}$ é o estimador não enviesado.^[55]^[56]

Na verdade, uma boa estimativa do desvio padrão real seria $\sigma _{X}={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}}}$ , em que $\mu$ é a média da distribuição de $x_{i}$ . Muitas vezes a média $\mu$ não é conhecida e precisa ser calculada a partir da amostra pela fórmula ${\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}$ . Então, a estimativa do desvio padrão é calculado pela fórmula

$s_{n-1}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}$ .^[57]

O denominador é $n-1$ em vez de $n$ (correção de Bessel) porque o cálculo da média de $x$ a partir da amostra perdeu um grau de liberdade, uma vez que a fórmula ${\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}$ liga ${\bar {x}}$ aos valores $x_{i}$ . Portanto, há apenas $n-1$ valores independentes após o cálculo de ${\bar {x}}$ .^[57]

Propriedades dos estimadores

Duas propriedades importantes dos estimadores são a convergência e a falta de viés.^[56] Se ${\hat {\theta }}$ é um estimador do parâmetro $\theta$ , o viés será a quantidade $E[{\hat {\theta }}]-\theta$ . Se o valor for diferente de zero, significa que ${\hat {\theta }}$ está posicionado em torno de $E[{\hat {\theta }}]$ em vez de $\theta$ . O estimador ${\hat {\theta }}$ é contaminado pelo erro. Um bom estimador não tem viés.^[58] O estimador $S_{n-1}$ do desvio padrão é enviesado, mas o viés é aceitável.^[59]^[60]

Se $\lim \limits _{n\to \infty }(a_{n})=a$ , então $(a_{n})$ converge (em distribuição, em média, em probabilidade, quase certamente) para $a$ à medida que $n$ aproxima-se do infinito. Entretanto, se $S_{n}^{2}$ e $S_{n-1}^{2}$ são estimadores convergentes de $\sigma ^{2}$ , reflete–se a aproximação de $\sigma ^{2}$ para as duas séries quando $n$ torna–se cada vez maior.^[58] Com o teorema da continuidade afirmando que se $f$ é contínua $\lim \limits _{n\to \infty }f(X_{n})=f(\lim \limits _{n\to \infty }X_{n})$ (limite em probabilidade), a função raiz quadrada é contínua, os estimadores ${S_{n}}$ e ${S_{n-1}}$ são convergentes também. O teorema da continuidade afirma que se $f$ é uma função contínua, então $X_{n}{\xrightarrow {\mathbb {P} }}X\Longrightarrow f(X_{n}){\xrightarrow {\mathbb {P} }}f(X)$ , em que ${\xrightarrow {\mathbb {P} }}$ denota convergência em probabilidade. Como a função raiz quadrada é uma função contínua, ${S_{n}}$ e ${S_{n-1}}$ são estimadores convergentes do desvio padrão. Isto é, $S_{n-1}{\xrightarrow {\mathbb {P} }}\sigma$ e $S_{n}{\xrightarrow {\mathbb {P} }}\sigma$ .^[61]

Desvio padrão da média

A média e o desvio padrão de um conjunto de dados são estatísticas descritivas geralmente reportadas em conjunto. De uma certa maneira, o desvio padrão é uma medida natural de dispersão estatística se o centro dos dados for medido em relação à média. Isto porque o desvio padrão a partir da média é menor que o desvio padrão a partir de qualquer outro ponto. Sendo $x_{1},\dots ,x_{n}$ números reais, define–se a função $\sigma (r)={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-r)^{2}}}.$ Usando cálculo ou completamento de quadrado, é possível mostrar que $\sigma (r)$ tem um mínimo único na média $r={\overline {x}}.\,$ ^[62]

A variabilidade também pode ser medida pelo coeficiente de variação, que é a razão entre o desvio padrão e a média. É um número adimensional.^[63]

Geralmente quer-se mais informações sobre a precisão da média obtida. Podemos obtê-la determinando o desvio padrão da média amostral. Assumindo a independência estatística dos valores na amostra, o desvio padrão da média está relacionado ao desvio padrão da distribuição por $\sigma _{\text{média}}={\frac {\sigma }{\sqrt {n}}}$ , em que $n$ é o número de observações na amostra usado para estimar a média.^[64]

Isto pode ser provado com ${\begin{aligned}\operatorname {var} ({\text{média}})&=\operatorname {var} \left({\frac {1}{n}}\sum _{i=1}^{n}X_{i}\right)={\frac {1}{n^{2}}}\operatorname {var} \left(\sum _{i=1}^{n}X_{i}\right)\\&={\frac {1}{n^{2}}}\sum _{i=1}^{n}\operatorname {var} (X_{i})={\frac {n}{n^{2}}}\operatorname {var} (X)={\frac {1}{n}}\operatorname {var} (X).\end{aligned}}$ Isto resulta em $\sigma _{\text{média}}={\frac {\sigma }{\sqrt {n}}}.$ ^[65]

É importante ressaltar que para estimar o desvio padrão da média $\sigma _{\text{média}}$ é necessário saber o desvio padrão de toda a população $\sigma$ de antemão. Entretanto, este parâmetro é desconhecido na maioria das aplicações. Por exemplo, se uma série de 10 medições de uma quantidade previamente desconhecida é realizada em um laboratório, é possível calcular a média da amostra resultante e o desvio padrão amostral, mas é impossível calcular o desvio padrão da média.^[66]

Para estimar a exatidão da estimativa da média de uma variável, o método do cálculo do desvio padrão da distribuição da amostragem das médias é utilizado. Também chamado erro padrão da média e denotado como $\sigma _{\bar {x}}$ , é o desvio padrão das médias das amostras de tamanho idêntico de uma população. Se $n$ é o tamanho das amostras tomadas a partir do desvio padrão de uma população $\sigma$ e se $N$ é o tamanho da população, então $\sigma _{\bar {x}}={\frac {\sigma }{\sqrt {n}}}{\sqrt {\frac {N-n}{N-1}}}$ .^[67]

Quando o desvio padrão $\sigma$ da população é desconhecido, ele pode ser substituído pelo estimador $S_{n-1}$ .^[67] Quando $n$ é suficientemente grande ( $n\geq 30$ ), a distribuição da amostra provavelmente segue a lei de Laplace–Gauss, que permite deduzir um intervalo de confiança em função de $\sigma _{\bar {x}}$ para localizar a média da população a partir da média da amostra.^[68]^[69]

Há casos em que é possível encontrar o desvio padrão $\sigma$ de uma população inteira com o Teste Z, em que cada membro da população é amostrado. Em casos em que não é possível encontrar o desvio padrão $\sigma$ , ele é estimado analisando uma amostra padrão extraída da população e calculando uma estatística da amostra, que é usada como uma estimativa do desvio padrão populacional.

Entretanto, ao contrário da estimativa da média da população, para a qual a média amostral é um estimador simples com muitas propriedades desejáveis (não enviesado, eficiente, máxima verossimilhança), não há um único estimador para o desvio padrão com todas estas propriedades, além de que um estimador não enviesado do desvio padrão é um problema técnico. Frequentemente o desvio padrão é estimado usando o desvio padrão corrigido da amostra $(n-1)$ e geralmente é referido como o desvio padrão amostral, sem qualificadores. Porém, outros estimadores são melhores em outros aspectos − o estimador com a correção ( $n$ ) produz um erro quadrático médio mais baixo, enquanto o uso de correção $(n-1,\!5)$ para distribuição normal elimina quase completamente o viés.^[70]

Desvio padrão não corrigido da amostra

Primeiramente, a fórmula para o desvio padrão populacional de uma população finita pode ser aplicada à amostra usando o tamanho da amostra como o tamanho da população (embora o tamanho verdadeiro da população da qual a amostra é extraída possa ser muito maior). O estimador denotado como $s_{n}$ é conhecido como desvio padrão não corrigido da amostra ou às vezes como desvio padrão amostral (considerado com a população inteira) e é definido como $s_{n}={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}},$ em que $\{x_{1},\,x_{2},\,\ldots ,\,x_{n}\}$ são os valores observados dos itens da amostra, ${\overline {x}}$ é o valor da amostra das observações, $n$ é o tamanho da amostra (raiz quadrada da variância da amostra, que é a média dos desvios quadráticos da média da amostra).^[71]

$S_{n}$ é um estimador consistente (converge em probabilidade para os valores da população à medida que o número de amostras tende ao infinito) e é a estimativa por máxima verossimilhança quando a população é normalmente distribuída. Entretanto, $S_{n}$ é um estimador enviesado na medida em que as estimativas são geradas muito lentamente. O viés diminui conforme o tamanho da amostra aumenta, caindo para ${\frac {1}{n}}$ e, portanto, é mais significativo para tamanhos pequenos ou moderados de amostras. Para $n>75$ , o viés é menor que 1%. Então, para tamanhos muito grandes de amostras, o desvio padrão não corrigido da amostra é geralmente aceitável. O estimador também tem erro quadrático médio uniformemente menor que o desvio padrão corrigido da amostra.^[71]

Desvio padrão corrigido da amostra

Se a variância enviesada da amostra (o segundo momento central da amostra, que é uma estimativa tendenciosa da variância populacional) é usada para calcular uma estimativa do desvio padrão populacional, retirando a raiz quadrada, introduzem-se mais vieses tendenciosos pela desigualdade de Jensen devido à raiz quadrada ser uma função côncava. O viés na variância é facilmente corrigido, mas o viés da raiz quadrada é mais difícil de ser corrigido e depende da distribuição em questão.

Um estimador não enviesado da variância é dado pela aplicação da correção de Bessel, usando $n-1$ em vez de $n$ para gerar a estimativa da variância não enviesada da amostra denotada como $s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}.$ ^[72] Retirando a raiz quadrada, reintroduz-se o viés porque a raiz quadrada é uma função não linear, que não é comutativa com a expectativa. Isto gera o desvio padrão corrigido da amostra denotado como $s={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}.$ ^[72]

Enquanto $s^{2}$ é uma estimativa não enviesada da variância populacional, $s$ é uma estimativa enviesada do desvio padrão populacional. Embora notadamente menos enviesado que o desvio padrão não corrigido da amostra. O viés continua sendo significativo para pequenas amostras ( $n<10$ ) e também cai para ${\frac {1}{n}}$ à medida que o tamanho da amostra aumenta. Este estimador é comumente usado e geralmente conhecido simplesmente como desvio padrão amostral.^[72]

Desvio padrão não enviesado da amostra

Para estimativas não enviesadas do desvio padrão, não há fórmula que aplique-se a todas as distribuições, ao contrário da média e da variância. $s$ é usado como uma base e é escalado por um fator de correção para produzir uma estimativa não enviesada. Para a distribuição normal, um estimador não enviesado é dado por ${\frac {s}{c_{4}}}$ , em que o fator de correção que depende de $n$ é dado em termos da função gama:

$c_{4}(n)\,=\,{\sqrt {\frac {2}{n-1}}}\,\,\,{\frac {\Gamma \left({\frac {n}{2}}\right)}{\Gamma \left({\frac {n-1}{2}}\right)}}.$ ^[70]

Isto ocorre porque a distribuição amostral do desvio padrão amostral segue uma distribuição qui e o fator de correção é a média da distribuição qui. Uma aproximação pode ser dada pela substituição de $n-1$ por $n-1,\!5$ , tal que ${\hat {\sigma }}={\sqrt {{\frac {1}{n-1,\!5}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}.$ ^[70]

O erro na aproximação cai quadraticamente para ${\frac {1}{n^{2}}}$ , e é adequado para todas as amostras, com exceção daquelas menores ou de menor precisão. Para $n=3$ , o viés é igual a 1,3% e para $n=9$ o viés é menor que 0,1%. Para outras distribuições, a fórmula correta depende da distribuição, mas uma regra de ouro é usar o refinamento da aproximação:

${\hat {\sigma }}={\sqrt {{\frac {1}{n-1,\!5-{\tfrac {1}{4}}\gamma _{2}}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}},$

em que $\gamma _{2}$ denota o excesso de curtose da população, que pode ser tanto conhecido antecipadamente para certas distribuições quanto estimado a partir dos dados.^[70]

Intervalo de confiança para o desvio padrão amostral

O desvio padrão obtido a partir da distribuição amostral não é absolutamente preciso, tanto por razões matemáticas (aqui explicadas pelo intervalo de confiança) quanto por razões práticas de medição (erro de medição). O efeito matemático pode ser descrito pelo intervalo de confiança.^[73] Para mostrar como uma amostra maior tornará o intervalo de confiança menor, consideram-se os seguintes exemplos.

Uma pequena população de tamanho $n$ = 3 tem apenas um grau de liberdade para estimar o desvio padrão. O resultado é que um intervalo de confiança de 95% tem desvio padrão entre 0,45 e 31,90. Os fatores são ${\Pr }{\Bigg \{}q_{\frac {\alpha }{2}}<{\frac {ks^{2}}{\sigma ^{2}}}<q_{\frac {1-\alpha }{2}}{\Bigg \}}=1-\alpha ,$ em que $q_{p}$ é o $p$ −ésimo quantil da distribuição qui−quadrado com $k$ graus de liberdade e $1-\alpha$ é o nível de confiança. Isto é equivalente a ${\Pr }{\Bigg \{}{\frac {ks^{2}}{q_{\frac {1-\alpha }{2}}}}<\sigma ^{2}<{\frac {ks^{2}}{q_{\frac {\alpha }{2}}}}{\Bigg \}}=1-\alpha .$ ^[74]

Com $k=1$ , $q_{0.025}=0,000982$ e $q_{0.975}=5,024$ . As recíprocas da raiz quadrada destes dois números fornecem os fatores 0,45 e 31,90 mencionados acima.

Uma população maior de tamanho $n=10$ tem 9 graus de liberdade para estimar o desvio padrão. Os mesmos cálculos acima fornecem um intervalo de confiança de 95% com desvio padrão entre 0,88 e 1,16. Para ter mais certeza de que o desvio padrão amostral será próximo do desvio padrão real, é preciso amostrar um grande número de pontos. As mesmas fórmulas podem ser usadas para obter os intervalos de confiança da variância de resíduos a partir do método dos mínimos quadrados, que se encaixa na teoria normal padrão, em que $k$ é o número de graus de liberdade do erro.^[74]

Desvio padrão de desvio padrão empírico

Em geral, é muito difícil calcular a distribuição de probabilidade de desvio padrão empírico. Porém se $X_{n}$ é uma sequência de variáveis aleatórias distribuídas de acordo com a distribuição normal $N(\mu ,\sigma ^{2})$ , então $n{\frac {S_{n}^{2}}{\sigma ^{2}}}$ segue uma distribuição de $\chi ^{2}$ a $n$ graus de liberdade.^[75] Esta lei é o desvio padrão ${\sqrt {2n}}$ . Portanto, o desvio padrão da distribuição das variações das variáveis normais é expresso por $\sigma _{S_{n}^{2}}=\sigma ^{2}{\sqrt {\frac {2}{n}}}$ .^[75]

Interpretação de um desvio padrão elevado

O conceito de desvio padrão elevado não tem sentido isoladamente. Ele não indica uma dispersão forte que se torna o valor adimensional quando dividido pela média.^[4] Um desvio padrão elevado possivelmente pode indicar a existência de um outlier. Um critério consiste em rejeitar os valores que diferem da média em mais de três vezes o desvio padrão, o qual está sob a distribuição normal de uma probabilidade de exceder de ${\frac {3}{1000}}$ .^[76]

Pesquisas de opinião

Em pesquisas de opinião, o desvio padrão $\sigma _{\bar {x}}$ avalia a incerteza das variações acidentais de ${\bar {x}}$ inerentes à pesquisa, chamada de margem de erro devido às variações acidentais.^[77]

Com o método da amostragem representativa, quando os diferentes estratos têm desvios padrões muito diferentes, o desvio padrão é utilizado para calcular a repartição ótima de Neyman, que permite medir a população nos diferentes estratos em função do desvio padrão. Em outros termos, $n_{i}=n{\frac {N_{i}\sigma _{i}}{\sum N_{j}\sigma _{j}}}$ é o tamanho da amostragem do estrato, $n$ é o tamanho total do estrato, $N_{i}$ é o tamanho do estrato $i$ e $\sigma _{i}$ é o desvio padrão do estrato $i$ .^[77]

Em algoritmo

O cálculo do desvio padrão para um programa de computador pode resultar em dados inconsistentes quando não se utiliza um algoritmo adequado, como quando se utiliza o algoritmo que opera diretamente a fórmula de grandes amostras de valores entre 0 e 1.^[78]^[79]

Um dos melhores algoritmos é chamado B.P. Welford, descrito por Donald Knuth em seu livro The Art of Computer Programming Vol. 2.^[80]^[81] Uma aproximação do desvio padrão da direção do vento é dada pelo algoritmo de Yamartino, que é usado em anemômetros modernos.^[82]^[83]

Métodos de cálculos rápidos

As duas fórmulas seguintes podem representar um desvio padrão repetidamente atualizado. Um conjunto de duas somas de potências $s_{1}$ e $s_{2}$ são calculadas sobre um conjunto de $n$ valores de $x$ denotados como $x_{1},\dots ,x_{n}$ , $\ s_{j}=\sum _{k=1}^{n}{x_{k}^{j}}.$ Dados os resultados das duas somas, os valores $s_{1}$ , $s_{2}$ e $n$ podem ser usados a qualquer hora para calcular o valor atual do desvio padrão $\sigma ={\frac {\sqrt {ns_{2}-s_{1}^{2}}}{n}}$ , em que $n$ é o tamanho do conjunto de valores (também pode ser denotado como $s_{0}$ ), como mencionado acima. Similarmente para o desvio padrão $s={\sqrt {\frac {ns_{2}-s_{1}^{2}}{n(n-1)}}}.$

Em uma implementação de computador, à medida que as três somas $s_{j}$ aumentam, é preciso considerar o erro de arredondamento, o overflow aritmético e o underflow aritmético. O método abaixo calcula o método das somas correntes com erros de arredondamento reduzidos. Isto é um algoritmo para calcular a variância de $n$ amostras sem a necessidade de armazenar dados anteriores durante o cálculo.^[80] Aplicando este método a uma série de tempo, resultará em valores sucessivos de desvio padrão correspondente a $n$ pontos dados à medida que $n$ aumenta com cada nova amostra.

Para $k=1,\dots ,n$

${\begin{aligned}A_{0}&=0\\A_{k}&=A_{k-1}+{\frac {x_{k}-A_{k-1}}{k}}\end{aligned}}$ , em que $A$ é o valor médio.

${\begin{aligned}Q_{0}&=0\\Q_{k}&=Q_{k-1}+{\frac {k-1}{k}}(x_{k}-A_{k-1})^{2}=Q_{k-1}+(x_{k}-A_{k-1})(x_{k}-A_{k})\\\end{aligned}}$ , em que $Q_{1}=0$ desde que $k-1=0$ ou $x_{1}=A_{1}$ .

A variância da amostra é $s_{n}^{2}={\frac {Q_{n}}{n-1}}$ . A variância da população é $\sigma _{n}^{2}={\frac {Q_{n}}{n}}$ .

Cálculo ponderado

Quando os valores $x_{i}$ são ponderados com pesos desiguais $w_{i}$ , as somas de potências $s_{0}$ , $s_{1}$ e $s_{2}$ são calculadas como

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]