トーマス・ベイズ (c. 1701–1761)
確率論や統計学において、トーマス・ベイズ 牧師にちなんで名付けられたベイズの定理 (ベイズのていり、英 : Bayes' theorem )、ベイズの法則 、最近ではベイズ・プライスの定理[ 1] とは、ある事象に関連する可能性のある条件についての事前の知識に基づいて、その事象の確率 を記述するものである[ 2] 。例えば、健康問題の発生リスクが年齢とともに増加することが知られている場合、ベイズの定理により、ある年齢の個人のリスクを、単にその個人が集団全体の典型的な例であると仮定するよりも、(年齢を条件として)より正確に評価することができる。
ベイズの定理を応用したものに、推計統計学 の手法の一つであるベイズ推定 がある。その際、定理に関わる確率は、異なる確率解釈をすることができる。ベイズ確率 の解釈では、定理は確率として表現された信念の度合いが、関連する証拠の入手可能性を考慮して合理的にどのように変化すべきかを表現している。ベイジアン推論は、ベイズ統計学 の基本である。
2つの樹形模様を重ね合せて表現したベイズの定理。
ベイズの定理を3次元で描いた説明図。
ピエール=シモン・ラプラス (1745–1827)
定理の説明
まず、確率
P
(
A
)
{\displaystyle P(A)}
を考える。
A
{\displaystyle A}
は集合
Ω
{\displaystyle \Omega }
の部分集合であるとする。確率とは、正定値性と加算性を満たし、
P
(
Ω
)
=
1
{\displaystyle P(\Omega )=1}
となる関数のことである(数学的にはおよそ測度そのものである)。
ベイズの定理は数学的には次の式で表される[ 3] :
P
(
A
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
)
{\displaystyle P(A\mid B)={\frac {P(B\mid A)\,P(A)}{P(B)}}}
P
(
A
∣
B
)
≡
P
(
A
∩
B
)
/
P
(
B
)
{\displaystyle P(A\mid B)\equiv P(A\cap B)/P(B)}
は条件付き確率 の定義であり、元
x
∈
B
{\displaystyle x\in B}
が
x
∈
A
{\displaystyle x\in A}
となる割合である。すなわち
B
{\displaystyle B}
を集合全体として部分集合
A
{\displaystyle A}
の確率を考えるということである。条件、とは
Ω
{\displaystyle \Omega }
の部分集合
B
{\displaystyle B}
を指定するための条件であり「条件を与える」というのと「部分集合
B
{\displaystyle B}
を与える」のは等価である。
ベイズの定理の証明は
P
(
A
∩
B
)
=
P
(
A
|
B
)
P
(
B
)
=
P
(
B
|
A
)
P
(
A
)
{\displaystyle P(A\cap B)=P(A|B)P(B)=P(B|A)P(A)}
から出る。
P
(
A
∣
B
)
{\displaystyle P(A\mid B)}
において
B
=
Ω
{\displaystyle B=\Omega }
と取ることを周辺化と呼ぶ。集合の正定値加算性を考えるとこれは
P
(
A
)
=
∫
Ω
P
(
A
∣
x
)
d
x
{\displaystyle P(A)=\int _{\Omega }P(A\mid x)dx}
と書いてよい。
prior probability
P
(
A
)
{\displaystyle P(A)}
は事前確率、posterior probability
P
(
A
∣
B
)
{\displaystyle P(A\mid B)}
は事後確率と呼ぶこともあるが、いささか乱暴な直訳であるので注意が必要。無条件確率、条件付き確率と訳するのが自然であるが冗長になる。
そもそも数学で言う「確率」とは、定義域を集合
Ω
{\displaystyle \Omega }
の部分集合とする
P
(
A
)
{\displaystyle P(A)}
という関数である。
一方、素朴な意味での確率の概念は「サンプリング(無限回サイコロを投げるときの数字列)」と結びついている。「確率」と「サンプリング」はまずは区別して考えるべきだが、「確率
P
(
A
)
{\displaystyle P(A)}
に従うサンプリングを行うことができる(乱数発生でつくれる)」、(逆も真とする)と言うことでそれらは等価である。
ベイズ推定
ベイズの定理と組み合わせて確率的推論を行う方法がラプラス によって始められ、現在言うところのベイズ統計学 の端緒となった。事象の確率という考え方を採用する特徴がある。
現在は例えば、迷惑メール の発見・分類といった作業のコンピュータを用いた自動化(フィルタリング )等のふるい分けにも利用されている。
概要
事象Bのベイズ確率 について、
P (B ) = 事象 A が起きる前の、事象 B の確率(事前確率 , prior probability)
P (B |A ) = 事象 A が起きた後での、事象 B の確率(事後確率 ,条件付き確率 , posterior probability,conditional probability)
とする。 ベイズの定理を使えば、事後確率 P (B |A ) は下記に従って計算される。
P
(
B
∣
A
)
=
P
(
A
∣
B
)
P
(
B
)
P
(
A
)
{\displaystyle P(B\mid A)={\frac {P(A\mid B)\,P(B)}{P(A)}}}
すなわち、事象Aに関するある結果(データ)が得られたとすると、それを反映し、尤度 P (A |B ) の乗算によって、事象 B の確率は事前確率から事後確率へと更新される。なお事象 B の確率の観点からは、P (A ) は規格化定数としての意味しかないため、しばしば省略される。つまり事後確率は事前確率と尤度の積に比例する:
P
(
B
∣
A
)
∝
P
(
A
∣
B
)
P
(
B
)
=
P
(
A
,
B
)
{\displaystyle P(B\mid A)\propto P(A\mid B)\,P(B)=P(A,B)}
ベイズ統計学 (およびベイズ決定理論 )は上記の手続きにその基礎をおき、名前の由来ともなっている[要出典 ] 。
批判
ベイズ統計学では、事象の確率という考え方を採用し、必ずしも頻度には基づかない確率を「確率」として見なす。
またベイズの定理を用い、事前確率 及び尤度 を仮定した下で事後確率 を与える、という相対的なメカニズムを主張している。したがって事後確率 の計算結果の信憑性や有用性は、事前分布と尤度の設定にかかっており、慎重を期すことが必要である。これはベイズ統計学 が、不確実性を含む問題を人によって異なる確率を用いて定式化することを許容する主観確率 (subjective probability) という立場をとっていることによる。この立場はまだ解析対象となっていない新たな問題へのアプローチを可能にするという利点がある一方で、確率の決め方について客観性に欠けるという批判もある(客観確率 )。
応用例
薬物検査
薬物検査の例を表す樹形図。記号U, Ū, +, − はそれぞれ使用者である、非使用者である、陽性である、陰性である事象を表す。
ある薬物の検査が感度 99%かつ特異度 99%だとしよう——つまり検査によって薬物の使用者のうち99%が陽性となり、非使用者のうち99%が陰性となると仮定する。さらに社会の0.5%が薬物使用者であるとする。無作為に選ばれた個人がこの検査で陽性だったとき、薬物使用者である確率 はいくつか?ベイズの定理(と全確率の公式 (英語版 ) )から
P
(
U
∣
+
)
=
P
(
+
∣
U
)
P
(
U
)
P
(
+
)
=
P
(
+
∣
U
)
P
(
U
)
P
(
+
∣
U
)
P
(
U
)
+
P
(
+
∣
U
¯
)
P
(
U
¯
)
=
0.99
×
0.005
0.99
×
0.005
+
0.01
×
0.995
≈
0.332
{\displaystyle {\begin{aligned}P({\text{U}}\mid {\text{+}})&={\frac {P({\text{+}}\mid {\text{U}})\,P({\text{U}})}{P(+)}}\\&={\frac {P({\text{+}}\mid {\text{U}})\,P({\text{U}})}{P({\text{+}}\mid {\text{U}})\,P({\text{U}})+P({\text{+}}\mid {\overline {\text{U}}})\,P({\overline {\text{U}}})}}\\&={\frac {0.99\times 0.005}{0.99\times 0.005+0.01\times 0.995}}\\&\approx 0.332\end{aligned}}}
個人の検査が陽性であるときでさえ、非使用者である可能性が使用者である可能性よりも高い。(それでも検査結果が陽性であったという情報を反映して、事後確率
P
(
U
∣
+
)
≈
0.332
{\displaystyle P({\text{U}}\mid {\text{+}})\approx 0.332}
は事前確率
P
(
U
)
=
0.005
{\displaystyle P({\text{U}})=0.005}
よりも大幅に上昇している。)つまり偽陽性 の数は真陽性 の数より多い。これは非使用者が使用者に比べて多いからである。たとえば、もし無作為に1000人が検査されるならば、995人の非使用者と5人の使用者がいると期待される。995人の非使用者からは0.01 × 995 ≈ 10 人の偽陽性が期待される。5人の使用者からは 0.99 × 5 ≈ 5人の真陽性が期待される。よって陽性であると期待される15人のうち、5人のみが薬物使用者である。
この例における特異度の重要性が次の計算からわかる。仮に感度が100%に上がり特異度が99%のままであれば陽性的中率 は33.2%から33.4%に微増するに留まるが、感度が99%のままで特異度が99.5%に上がれば陽性的中率は49.9%に増加する。
脚注
^ Frame, Paul (2015). Liberty's Apostle . Wales: University of Wales Press. ISBN 978-1-78316-216-1 . https://www.uwp.co.uk/book/libertys-apostle-richard-price-his-life-and-times/ 23 February 2021 閲覧。
^ Joyce, James (2003), Zalta, Edward N., ed., “Bayes' Theorem” , The Stanford Encyclopedia of Philosophy (Metaphysics Research Lab, Stanford University), https://plato.stanford.edu/archives/spr2019/entries/bayes-theorem/ 2020年1月17日 閲覧。
^ Stuart, A.; Ord, K. (1994), Kendall's Advanced Theory of Statistics: Volume I—Distribution Theory , Edward Arnold , §8.7
参考文献
Bayes, Thomas ; Price, Richard (1763). “An Essay towards solving a Problem in the Doctrine of Chance. By the late Rev. Mr. Bayes, communicated by Mr. Price, in a letter to John Canton, M. A. and F. R. S.” (PDF). Philosophical Transactions of the Royal Society of London (Royal Society ) 53 (0): 370–418. doi :10.1098/rstl.1763.0053 . http://www.stat.ucla.edu/history/essay.pdf .
Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Dunson, David B.; Vehtari, Aki; Rubin, Donald B. (2014). Bayesian Data Analysis . Texts in Statistical Science Series (Third ed.). CRC Press. ISBN 978-1-4398-4095-5 . MR 3235677 . Zbl 1279.62004 . https://books.google.co.jp/books?id=ZXL6AQAAQBAJ
Stigler, Stephen M. (1986). The History of Statistics . The Belknap Press of Harvard University Press. ISBN 0-674-40340-1 . MR 0852410 . Zbl 0656.62005 . https://books.google.co.jp/books?id=M7yvkERHIIMC
関連項目
外部リンク