正規分布 近似において平均から1σ(プラスマイナス標準偏差)範囲には約68%の要素が含まれ、2σ範囲には約95%、3σ範囲には約 99.7%が含まれる。図内のパーセンテージは丸め られた値である。
標準化した残差z (横軸)と、事象が生じる間隔の期待値(縦軸・対数軸)。
統計学 における68–95–99.7則 (英 : 68–95–99.7 rule )とは、正規分布 において、平均値 を中心とした標準偏差 の2倍、4倍、6倍の幅に入るデータの割合 の簡略表現である。より正確には、68.27%、95.45%、 99.73%である。
数学的には、平均 μ で標準偏差 σ の正規分布 に従う確率変数 X は以下の式に従うことが述べられている。
Pr
(
μ
−
σ
≤
X
≤
μ
+
σ
)
≈
0.6827
Pr
(
μ
−
2
σ
≤
X
≤
μ
+
2
σ
)
≈
0.9545
Pr
(
μ
−
3
σ
≤
X
≤
μ
+
3
σ
)
≈
0.9973
{\displaystyle {\begin{aligned}\Pr(\mu -\;\,\sigma \leq X\leq \mu +\;\,\sigma )&\approx 0.6827\\\Pr(\mu -2\sigma \leq X\leq \mu +2\sigma )&\approx 0.9545\\\Pr(\mu -3\sigma \leq X\leq \mu +3\sigma )&\approx 0.9973\end{aligned}}}
経験論 的には、いわゆる「3シグマのルール」や「千三ツの法則」と呼ばれるものであり、ほぼすべての値が平均の3標準偏差以内にあるという従来のヒューリスティックを表している[ 1] 。このヒューリスティックの便利さは置いている仮定に非常に大きく左右される。社会科学においては、2σ以上外れた値(95%信頼区間の外)が「有意 」とされ、素粒子物理学 の分野では、5σ (99.99994%信頼区間の外)が「発見」に必要だとされている。
「3シグマのルール」では正規分布に従わない場合でも、少なくとも、88.8%のデータは μ±3σ の範囲内に入る。これは、チェビシェフの不等式 (kσの外にはたかだか1/k2 のデータしか存在し得ない)から導かれる。単峰分布においては、少なくとも95%であり、少なくとも98%まで上げるには一定の前提が必要かもしれない。
Pr
(
|
X
−
μ
|
≤
k
σ
)
≥
1
−
1
k
2
{\displaystyle \Pr(\left|X-\mu \right|\leq k\sigma )\geq 1-{\frac {1}{k^{2}}}}
累積分布関数
平均が0、標準偏差が1である正規分布の累積分布関数
“68%, 95%, 99.7%” は標準正規分布の累積分布関数に由来している。
任意の偏差値 z の期待幅は、(1−(1−Φµ ,σ 2 (z))·2)に対応する。
例えば、2σの範囲、つまりΦ(2) ≈ 0.9772 もしくはPr(X ≤ μ + 2σ ) ≈ 0.9772 は、(1 − (1 − 0.97725)·2) = 0.9545 = 95.45%に対応する。しかしこの間隔は対称的ではない。観測値が μ + 2σ である確率に過ぎない。観測値が平均値から±2σの範囲に含まれる確率は(丸め誤差を含むが)
Pr
(
μ
−
2
σ
≤
X
≤
μ
+
2
σ
)
=
Φ
(
2
)
−
Φ
(
−
2
)
≈
0.9772
−
(
1
−
0.9772
)
≈
0.9545
{\displaystyle \Pr(\mu -2\sigma \leq X\leq \mu +2\sigma )=\Phi (2)-\Phi (-2)\approx 0.9772-(1-0.9772)\approx 0.9545}
と計算できる。
これは95%信頼区間
X
¯
±
2
σ
n
{\displaystyle {\bar {X}}\pm 2{\frac {\sigma }{\sqrt {n}}}}
に関係している(ただし n サンプルの平均値を
X
¯
{\displaystyle {\bar {X}}}
とする)。
正規性検定
“68–95–99.7 則” は、標本からその母集団が正規分布であるかの簡易的な評価をするためによく用いられる。また、母集団を正規分布と仮定した場合の外れ値 の単純な検定や、母集団が正規分布かもしれないに [訳語疑問点 ] 正規性検定としても使用される。
標本の変換するには [訳語疑問点 ] 、平均(母集団の平均がわからない場合には推定する)・分散 を計算し、標本の値から平均の値を引くことで残差 を計算する。そして、残差を標準偏差で割ることで偏差値 を得る(ただし偏差値はここに書いたとおり残差を標準偏差で割った値であり、平均値が50、標準偏差が10となるように標本変数を規格化したものではなく、どちらかというとスチューデント化残差に近い)。
外れ値の検定や正規性の検定に用いる場合、標準偏差とその範囲に存在するデータの割合を比較する。標本のスチューデント化残差 を計算し、正規分布でのデータの割合の期待値と比較する。(標本のサイズが十分大きい場合を除き、極端なデータとされるため)3σ以上の残差を持つデータは外れ値とされることが多い。平均から3σ以上に多くのデータがある場合正規分布ではないと疑われやすい。また、この考え方は4σ以上離れている場合より顕著である。
より正確には、ポアソン分布 を用いて与えられた大きさ以上の残差のデータ数を近似して計算できるが、1000点の標本に4σ以上の残差を持つデータがある場合、正規性に疑問を呈する。
例えば、6σのデータは約2億分の1の確率に相当する。事象が毎日発生する場合、このデータは140万年に一度しか生じないデータに対応する。つまり、とある日のデータで6σが観測され、その観測期間が100万年を大幅に下回る場合、正規分布は良いモデルを提供しない可能性が高いといえる。
ナシム・ニコラス・タレブ は著書 The Black Swan の中で、ブラックマンデー が36σの事象に対応するリスクモデルの例を示している。そのようなイベントが発生すると、モデルに欠陥がある、つまり、正規分布によるモデル化は適切でないことが即座に示唆され、その後、確率的ボラティリティモデル などのより洗練されたモデルで考慮する必要がある。このような議論では、まれな出来事をたったひとつ観測しただけでは、そのような事実はまれであるということに矛盾しないというギャンブラーの誤謬 の問題を認識することが重要である[要出典 ] 。まれな事象が生じることは、「まれな事象がまれである」という仮説、すなわち仮定されたモデルの妥当性を損なう。仮説の信頼性が徐々に失われる場合、このプロセスを適切にモデリングするには、仮説そのものの見直しだけでなく、事前確率 を指定する必要がある場合もある。このため、統計的仮説検定 は、起きやすい事象を確認することではなく、あまり効果を発揮せず、 [訳語疑問点 ] 疑わしい仮説(起きにくい事象)を反駁することによって、効果を発揮する。
数値データの表
正規分布は裾野において指数関数的に確率は減少するため、残差の大きなデータは指数関数的に減少する。標準正規分布に従う1日に一回起きる事象は、統計的には以下の表に示す頻度で生じる。
範囲
範囲内に含まれる割合の期待値
範囲外に含まれる割合の期待値の近似
生じる頻度の近似
μ ± 0.5σ
0.382924 922 548 026 21 ...
2/3
週に4度
μ ± σ
0.682689 492 137 085 90 ...
1/3
週に2度
μ ± 1.5σ
0.866385 597 462 283 87 ...
1/7
週に1度
μ ± 2σ
0.954499 736 103 641 59 ...
1/22
3週間に1度
μ ± 2.5σ
0.987580 669 348 447 73 ...
1/81
四半期に1度
μ ± 3σ
0.997300 203 936 739 81 ...
1/370
1年に1度
μ ± 3.5σ
0.999534 741 841 928 95 ...
1/ 2149
6年に1度
μ ± 4σ
0.999936 657 516 333 76 ...
1/ 15787
43年に1度 (一生に2度)
μ ± 4.5σ
0.999993 204 653 750 54 ...
1/ 147160
403年に1度
μ ± 5σ
0.999999 426 696 856 24 ...
1/ 1744 278
4776 年に1度
μ ± 5.5σ
0.999999 962 020 875 07 ...
1/ 26330 254
72090 年に1度(ホモ・サピエンス 時代に3度)
μ ± 6σ
0.999999 998 026 824 71 ...
1/ 506797 346
138万年に1度(ヒト属 が生まれてから2度)
μ ± 6.5σ
0.999999 999 919 679 99 ...
1/ 12450 197 393
3400万年に1度 (恐竜の絶滅 から2度)
μ ± 7σ
0.999999 999 997 440 37 ...
1/ 390682 215 445
10億7000万年に1度(地球の歴史で4度)
μ ± x σ
erf
(
x
2
)
{\displaystyle \operatorname {erf} \left({\frac {x}{\sqrt {2}}}\right)}
1
−
erf
(
x
2
)
{\displaystyle 1-\operatorname {erf} \left({\frac {x}{\sqrt {2}}}\right)}
1
1
−
erf
(
x
2
)
{\displaystyle {\tfrac {1}{1-\operatorname {erf} \left({\frac {x}{\sqrt {2}}}\right)}}}
脚注
^ this usage of "three-sigma rule" entered common usage in the 2000s, e.g. cited in Schaum's Outline of Business Statistics . McGraw Hill Professional. (2003). p. 359none , and in Grafarend, Erik W. (2006). Linear and Nonlinear Models: Fixed Effects, Random Effects, and Mixed Models . Walter de Gruyter. p. 553
関連項目
外部リンク