68–95–99.7則
統計学における68–95–99.7則(英: 68–95–99.7 rule)とは、正規分布において、平均値を中心とした標準偏差の2倍、4倍、6倍の幅に入るデータの割合の簡略表現である。より正確には、68.27%、95.45%、 99.73%である。
数学的には、平均 μ で標準偏差 σ の正規分布に従う確率変数 X は以下の式に従うことが述べられている。
経験論的には、いわゆる「3シグマのルール」や「千三ツの法則」と呼ばれるものであり、ほぼすべての値が平均の3標準偏差以内にあるという従来のヒューリスティックを表している[1]。このヒューリスティックの便利さは置いている仮定に非常に大きく左右される。社会科学においては、2σ以上外れた値(95%信頼区間の外)が「有意」とされ、素粒子物理学の分野では、5σ (99.99994%信頼区間の外)が「発見」に必要だとされている。
「3シグマのルール」では正規分布に従わない場合でも、少なくとも、88.8%のデータは μ±3σ の範囲内に入る。これは、チェビシェフの不等式(kσの外にはたかだか1/k2 のデータしか存在し得ない)から導かれる。単峰分布においては、少なくとも95%であり、少なくとも98%まで上げるには一定の前提が必要かもしれない。
累積分布関数
[編集]“68%, 95%, 99.7%” は標準正規分布の累積分布関数に由来している。
任意の偏差値 z の期待幅は、(1−(1−Φµ,σ2(z))·2)に対応する。
例えば、2σの範囲、つまりΦ(2) ≈ 0.9772もしくはPr(X ≤ μ + 2σ) ≈ 0.9772は、(1 − (1 − 0.97725)·2) = 0.9545 = 95.45%に対応する。しかしこの間隔は対称的ではない。観測値が μ + 2σ である確率に過ぎない。観測値が平均値から±2σの範囲に含まれる確率は(丸め誤差を含むが)
と計算できる。
これは95%信頼区間 に関係している(ただし n サンプルの平均値を とする)。
正規性検定
[編集]“68–95–99.7 則” は、標本からその母集団が正規分布であるかの簡易的な評価をするためによく用いられる。また、母集団を正規分布と仮定した場合の外れ値の単純な検定や、母集団が正規分布かもしれないに[訳語疑問点]正規性検定としても使用される。
標本の変換するには[訳語疑問点]、平均(母集団の平均がわからない場合には推定する)・分散を計算し、標本の値から平均の値を引くことで残差を計算する。そして、残差を標準偏差で割ることで偏差値を得る(ただし偏差値はここに書いたとおり残差を標準偏差で割った値であり、平均値が50、標準偏差が10となるように標本変数を規格化したものではなく、どちらかというとスチューデント化残差に近い)。
外れ値の検定や正規性の検定に用いる場合、標準偏差とその範囲に存在するデータの割合を比較する。標本のスチューデント化残差を計算し、正規分布でのデータの割合の期待値と比較する。(標本のサイズが十分大きい場合を除き、極端なデータとされるため)3σ以上の残差を持つデータは外れ値とされることが多い。平均から3σ以上に多くのデータがある場合正規分布ではないと疑われやすい。また、この考え方は4σ以上離れている場合より顕著である。
より正確には、ポアソン分布を用いて与えられた大きさ以上の残差のデータ数を近似して計算できるが、1000点の標本に4σ以上の残差を持つデータがある場合、正規性に疑問を呈する。
例えば、6σのデータは約2億分の1の確率に相当する。事象が毎日発生する場合、このデータは140万年に一度しか生じないデータに対応する。つまり、とある日のデータで6σが観測され、その観測期間が100万年を大幅に下回る場合、正規分布は良いモデルを提供しない可能性が高いといえる。
ナシム・ニコラス・タレブは著書 The Black Swan の中で、ブラックマンデーが36σの事象に対応するリスクモデルの例を示している。そのようなイベントが発生すると、モデルに欠陥がある、つまり、正規分布によるモデル化は適切でないことが即座に示唆され、その後、確率的ボラティリティモデルなどのより洗練されたモデルで考慮する必要がある。このような議論では、まれな出来事をたったひとつ観測しただけでは、そのような事実はまれであるということに矛盾しないというギャンブラーの誤謬の問題を認識することが重要である[要出典]。まれな事象が生じることは、「まれな事象がまれである」という仮説、すなわち仮定されたモデルの妥当性を損なう。仮説の信頼性が徐々に失われる場合、このプロセスを適切にモデリングするには、仮説そのものの見直しだけでなく、事前確率を指定する必要がある場合もある。このため、統計的仮説検定は、起きやすい事象を確認することではなく、あまり効果を発揮せず、[訳語疑問点]疑わしい仮説(起きにくい事象)を反駁することによって、効果を発揮する。
数値データの表
[編集]正規分布は裾野において指数関数的に確率は減少するため、残差の大きなデータは指数関数的に減少する。標準正規分布に従う1日に一回起きる事象は、統計的には以下の表に示す頻度で生じる。
範囲 | 範囲内に含まれる割合の期待値 | 範囲外に含まれる割合の期待値の近似 | 生じる頻度の近似 |
---|---|---|---|
μ ± 0.5σ | 0.38292492254802621... | 2/3 | 週に4度 |
μ ± σ | 0.68268949213708590... | 1/3 | 週に2度 |
μ ± 1.5σ | 0.86638559746228387... | 1/7 | 週に1度 |
μ ± 2σ | 0.95449973610364159... | 1/22 | 3週間に1度 |
μ ± 2.5σ | 0.98758066934844773... | 1/81 | 四半期に1度 |
μ ± 3σ | 0.99730020393673981... | 1/370 | 1年に1度 |
μ ± 3.5σ | 0.99953474184192895... | 1/2149 | 6年に1度 |
μ ± 4σ | 0.99993665751633376... | 1/15787 | 43年に1度 (一生に2度) |
μ ± 4.5σ | 0.99999320465375054... | 1/147160 | 403年に1度 |
μ ± 5σ | 0.99999942669685624... | 1/1744278 | 4776年に1度 |
μ ± 5.5σ | 0.99999996202087507... | 1/26330254 | 72090年に1度(ホモ・サピエンス時代に3度) |
μ ± 6σ | 0.99999999802682471... | 1/506797346 | 138万年に1度(ヒト属が生まれてから2度) |
μ ± 6.5σ | 0.99999999991967999... | 1/12450197393 | 3400万年に1度 (恐竜の絶滅から2度) |
μ ± 7σ | 0.99999999999744037... | 1/390682215445 | 10億7000万年に1度(地球の歴史で4度) |
μ ± xσ |
脚注
[編集]- ^ this usage of "three-sigma rule" entered common usage in the 2000s, e.g. cited in Schaum's Outline of Business Statistics. McGraw Hill Professional. (2003). p. 359none, and in Grafarend, Erik W. (2006). Linear and Nonlinear Models: Fixed Effects, Random Effects, and Mixed Models. Walter de Gruyter. p. 553
関連項目
[編集]外部リンク
[編集]- "The Normal Distribution" by Balasubramanian Narasimhan
- "Calculate percentage proportion within x sigmas at WolframAlpha