確率変数の収束

数学確率論の分野において、確率変数の収束(かくりつへんすうのしゅうそく、: convergence of random variables)に関しては、いくつかの異なる概念がある。確率変数のある極限への収束は、確率論や、その応用としての統計学確率過程の研究における重要な概念の一つである。より一般的な数学において同様の概念は確率収束 (stochastic convergence) として知られ、その概念は、本質的にランダムあるいは予測不可能な事象の列は、その列から十分離れているアイテムを研究する場合において、しばしば、本質的に不変な挙動へと落ち着くことが予想されることがある、という考えを定式化するものである。異なる収束の概念とは、そのような挙動の特徴づけに関連するものである:すぐに分かる二つの挙動とは、その列が最終的に定数となるか、あるいはその列に含まれる値は変動を続けるがある不変な確率分布によってその変動が表現される、というようなものである。

背景

「確率収束」とは、本質的にランダムあるいは予測不可能である事象の列がしばしばあるパターンへと落ち着くことが期待される、という考えを定式化するものである。そのパターンとは、例えば、

  • ある固定値や、ある確率事象から発生するそれ自身への、古典的な意味での収束
  • 純粋な決定論的な関数から生じる結果への相似性の増加
  • ある特定の結果への嗜好の増加
  • ある特定の結果から離れていることに対する反発の増加

などが挙げられる。それより明白ではないが、より理論的なパターンとしては

  • 次の結果を表現する確率分布が、ある分布へとより似るようになること
  • ある特定の値から離れた結果の期待値を計算することによって形成される列が 0 へと収束すること
  • 次の事象を表現する確率変数分散がより少なくなっていくこと

などが挙げられる。これらの起こりうる異なるタイプのパターンは、研究されている異なるタイプの確率収束において反映される。

上述の議論は一つの列の一つの極限値への収束と関連しているが、二つの列が互いへと収束する概念も重要である。しかし、それは、それら2つの列の差や比によって定義される列を研究することによって容易に扱うことができる。

例えば、等しい有限の平均と分散を持つような n 個の無相関英語版確率変数 Yi, i = 1, …, n の平均が

で与えられるとすると、n が無限大へと近付く時、Xn は確率変数 Yi の共通の平均 μ へと確率収束(下記参照)する。この結果は大数の弱法則として知られる。別のタイプの収束は、中心極限定理を含む別の有用な定理において重要となる。

以下では、(Xn) を確率変数列とし、X を確率変数とし、それらすべては同一の確率空間 上で定義されるものとする。

分布収束

分布収束の例
サイコロ工場
新しく建設されたばかりのサイコロ工場について考える。初めの方に作られたサイコロには、その製造過程の不完全さに起因して、偏りがあると考えられる。それらを投げた時に出る目から得られる分布は、理想とする一様分布とはきわだって異なるものとなるであろう。

工場が改善されるにつれてサイコロの偏りは少なくなり、より新しく作られたサイコロを投げた時に出る目は一様分布により近いものとなっていく。
コイン投げ
偏りの無いコインを n 回投げた時に表が出た割合を Xn とする。このとき、X1 は期待値 μ = 0.5 および分散 σ2 = 0.25 であるベルヌーイ分布に従う。それ以降の確率変数 X2, X3, … はすべて二項的に分布する。

n が大きくなるにつれて、その分布はしだいに正規分布の釣鐘型曲線に近い形を取るようになる。Xn を適切にシフトし、リスケールすることによって は標準正規分布へと分布収束する。この結果は有名な中心極限定理によるものである。
グラフ例

{Xi} を、一様 U(−1,1) 確率変数の独立同一列とする。 を、それらの(正規化された)和とする。このとき、中心極限定理より、Zn の分布は標準 N(0, 1/3) 分布へと近付く。この収束を、下図に表す:n が大きくなるにつれて、確率密度関数はガウス曲線へと近付いていく。

このタイプの収束により、ある与えられた確率分布によってより良くモデル化されるようなランダム実験の列における結果を期待することができる。

分布収束は、この記事内で述べられる全ての他のタイプの収束も意味するという点において、最も弱い収束である。しかしながら、実際の現場において、分布収束は非常によく利用される; 最もよく現れるのは、中心極限定理の応用においてである。

定義

確率変数の列 X1, X2, … が、ある確率変数 X へと分布収束する、あるいは弱収束あるいは法則収束 (converge in law) するとは、

が、F連続であるような全ての数 xR に対して成り立つことである。ここで、Fn および F はそれぞれ確率変数 Xn および X累積分布関数である。

F が連続であるような点のみを考えるということは本質的である。例えば、もし Xn が区間 [0, 1/n]一様に分布しているなら、その列は退化確率変数 X = 0 へと収束する。実際、x ≤ 0 である時はすべての n に対して Fn(x) = 0 が成り立ち、 n > 0 である時はすべての x1/n に対して Fn(x) = 1 が成り立つ。しかしながら、すべての n に対して Fn(0) = 0 であるにもかかわらず、この極限確率変数に対しては F(0) = 1 である。したがって、F の不連続点 x = 0 では累積分布関数の収束は成立しない。

分布収束は次のように表記することができる。

ここで X の法則(確率分布)である。例えば、X が標準正規であるなら と書くことができる。

確率ベクトル英語版 (X1, X2, …) ⊂ Rk に対する分布収束も、同様に定義される。この列がある確率 k-ベクトルへと分布収束するとは、

が、X連続集合英語版であるすべての ARk に対して成り立つことである。

分布収束の定義は、確率ベクトルから、任意の距離空間におけるより複雑な確率要素や、さらには漸近の場合を除いて可測でない「確率変数」に対してですら拡張される-そのような状況は例えば経験過程の研究において現れ、これは「定義されていない法則の弱収束」である[1]

この場合、弱収束という呼び名が好ましい(測度の弱収束英語版を参照されたい)。また、確率要素の列 (Xn)X へと弱収束する(XnX と記述される)とは、

がすべての連続有界関数 h(·) に対して成り立つことである[2]。ここで E* は外期待値 (outer expectation)、すなわち、h(Xn) を支配するような最小の可測関数 g の期待値を表す。

性質

  • F(a) = Pr(Xa) であることから、分布収束は、十分大きい n に対して Xn がある与えられた領域に含まれる確率と、その領域に X が含まれる確率がほとんど等しいことを意味する。
  • 一般的に分布収束は、対応する確率密度関数の列が同様に収束するということは意味しない。その一例として、密度 fn(x) = (1 − cos(2πnx))1{x∈(0,1)} を備える確率変数を考える。そのような確率変数は一様分布 U(0, 1) へと分布収束するが、その密度が収束することはない[3]
  • ポートマントーの補題英語版では、分布収束のいくつかの同値な定義が述べられている。それらの定義は直感にそぐわないものでもあるかも知れないが、統計学における多くの定理の証明に利用されている。その補題によれば、(Xn)X へ分布収束するための必要条件は、次のいずれかが成立することである:
  • Ef(Xn) → Ef(X) がすべての有界連続関数 f に対して成立する;
  • Eƒ(Xn) → Ef(X) がすべての有界なリプシッツ関数 f に対して成立する;
  • limsup{ Ef(Xn) } ≤ Ef(X) がすべての上半連続かつ上に有界な関数 f に対して成立する;
  • liminf{ Ef(Xn) } ≥ Ef(X) がすべての下半連続かつ下に有界な関数 f に対して成立する;
  • limsup{ Pr(XnC) } ≤ Pr(XC) がすべての閉集合 C に対して成立する;
  • liminf{ Pr(XnU) } ≥ Pr(XU) がすべての開集合 U に対して成立する;
  • lim{ Pr(XnA) } = Pr(XA) が、すべての確率変数 X連続集合英語版 A に対して成立する。
  • 連続写像定理英語版によると、g(·) が連続関数であるとき、確率変数列 {Xn} が X に分布収束するなら、{g(Xn)} も g(X) へと分布収束することが分かる。
  • レヴィの連続性定理:確率変数列 {Xn} が X に分布収束するための必要十分条件は、それらに対応する特性関数の列 (φn)X の特性関数 φ へと各点収束することである。
  • 分布収束はレヴィ-プロホロフ計量によって距離化可能である。
  • スコロホッドの表現定理は、分布収束への自然な拡張である。

確率収束

確率収束の例
ある人物の身長
次のような実験を考える。はじめに、路上の人の中からランダムに一人選ぶ。その人の身長 X を、事前に確率変数として定めておく。その後、他の人々に、その人の身長を目算で予測してもらう作業を始める。Xn を、その人々からの n 回目の回答までに得られた身長の数字の平均とする。すると(バイアスが無いならば)大数の法則により、列 Xn はあらかじめ定めた確率変数 X へと確率収束する。
射手
人に弓を持たせ、的を目掛けて矢を射させる作業を考える。Xn を、その人の n 回目までの射的の成績とする。初めの内は、その人はとても頻繁に的を外すことも考えられるであろうが、何度も繰り返す内にその人の射的の腕前は向上し、的の中心を射抜いて 10 点の成績を得ることも起こりやすくなるであろう。何年も練習を重ねた後に、その人が 10 点以外の成績を得る可能性はより低くなるであろう。したがって、列 XnX = 10 へと確率収束する。

ここで Xn は、概収束はしないことに注意されたい。その人がどれほど優れた射手であろうと、失敗をする確率はわずかにでも常に存在している。したがって、列 (Xn) は決して定常状態になることは無い。たとえその頻度が少なくなろうと、パーフェクトでない成績は必ずそこに含まれる。

「例外的」な結果が起こる確率は、列が進むにつれてより小さくなる、という考え方が、このタイプの収束の背景にある。

確率収束の概念は統計学において非常に頻繁に用いられる。例えば、ある推定量一致推定量であるとは、それが推定された量へと確率収束することを言う。確率収束はまた、大数の弱法則により確立される収束の一つでもある。

定義

確率収束の定義を正式に述べる。任意の ε > 0 および任意の δ > 0 を選ぶ。X を中心とする半径 ε の外側に Xn がある確率を Pn とする。このとき、XnX へと確率収束するためには、全ての nNδ に対して確率 Pnδ より小さくなる、ある数 Nδ が存在しなければならない。

確率収束は、収束を表す矢印に記号 p を付け加えるか、確率極限作用素 "plim" を使って表される:

性質

  • 確率収束するならば、分布収束する[proof]
  • 確率収束しても、必ずしも概収束しない[proof]
  • 逆に、分布収束が確率収束を意味するためには、極限の確率変数 X が定数である必要がある[proof]
  • 連続写像定理英語版によると、どのような連続関数 g(·) に対しても、 であるならば が成立する。
  • 確率収束は、ある固定された確率空間に対する確率変数の空間上の位相を定義する。この位相は、次に述べるカイ・ファン英語版計量により距離化可能である[4]

あるいは

.

概収束

概収束の例
例 1
短命の種である一匹の動物について考える。その動物が毎日に摂る食事の数量を記録する。この数量の列は予測不可能であろうが、その値が 0 となる日は「確かに必ず」訪れるであろう。その値はその後は永遠に 0 であり続ける。
例 2
毎朝 7 枚のコインを投げる男について考える。その男は、表の出た枚数だけ 1 ポンド貨幣を午後にチャリティーへと寄付することを日課としているが、全てが裏であった時にはその日課を永遠に止めることに決めている。

X1, X2, … を、そのチャリティーが彼から受け取る日々の金額とする。

その金額が 0 となり、またその後も 0 であり続けるような日が訪れることは「ほとんど確かに」予想できるであろう。

しかし、コインを投げる日が有限であるのなら、そのような終了条件が起こらない確率も 0 ではない。

概収束は、初等的な実解析の分野で知られる各点収束の概念とほぼ同様な、確率収束の一つの型である。

定義

確率変数列 XnX へと概収束あるいはほとんど確実に収束ほとんど至る所で収束確率 1 で収束あるいは強収束するとは、

が成り立つことである。

上式は、XnX へと収束しない事象が起きる確率が 0 であるという意味で、Xn の値が X の値へと近付くことを意味する(ほとんど (数学)も参照)。確率空間 を定め、Ω から R への関数としての確率変数の概念を利用することで、上式は

と同値となる。

また概収束の同値な定義には、以下もある:

概収束は、しばしば、収束を表す矢印の上に記号 a.s.(almost surelyの略)を付け加えることによって表現される:

距離空間 (S, d) 上の一般的な確率要素 (Xn) に対しても、同様に概収束が定義される:

性質

  • 概収束は確率収束を意味し、したがって分布収束を意味する。大数の強法則で用いられる概念は、概収束である。
  • 概収束の概念は、確率変数の空間上のトポロジーから生じるものではない。このことは、概収束がそのトポロジーに関する収束列と全く等しいような確率変数の空間上のトポロジーというものは存在しないことを意味する。特に、概収束には計量が無い。

確実収束

ある確率空間上定義される列あるいは確率変数 (Xn)(すなわち、確率過程)が X確実収束 (sure convergence) あるいは各点収束するとは、

が成り立つことである。ここで Ω は、確率変数が定義される確率空間に含まれる標本空間である。

これは、関数列の各点収束の概念を確率変数の列へと拡張したものである(確率変数はそれ自身が関数であることに注意されたい)。

確率変数の確実収束は、上述の他の全ての収束を意味する。しかし、概収束の代わりに確実収束を用いることのメリットは確率論においてはあまり無い。それら2つの収束の違いは、確率 0 の集合に関する点のみに存在する。このことが、確実収束の概念が滅多に用いられることの無い理由である。

平均収束

ある r ≥ 1 に対し、列 (Xn)X へと r次平均収束(あるいは、Lr-ノルムについて収束)するとは、(Xn) および Xr絶対積率が存在し、かつ

が成り立つことである。ここで作用素 E は期待値を表す。r次平均収束は、(Xn)X の差の r次のべきの期待値が 0 へと収束することを意味する。

この種の収束はしばしば、収束を表す矢の上に記号 Lr を付け加えることで表現される:

r次平均収束に関して重要なケースを下に挙げる:

  • r = 1 について XnX へと r次平均収束するとき、XnX平均収束すると言われる。
  • r = 2 について XnX へと r次平均収束するとき、XnX二乗平均収束すると言う。この収束はまた次のように記述されることもある[5]

r > 1 に関する r次平均収束は、(マルコフの不等式により)確率収束を意味する。また、r > s ≥ 1 である時、r次平均収束は s次平均収束を意味する。このことから、二乗平均収束は平均収束を意味することが分かる。

性質

様々な収束の概念の間の包含関係を以下に記述する。それらは、矢の記号を使うことで、次のように表される:

いくつかの特別な場合とともに、これらの性質を次のようにまとめる:

  • 概収束は、確率収束を意味する[6][proof]
  • 確率収束は、概収束するような部分列 が存在することを意味する[7]
  • 確率収束は、分布収束を意味する[6][proof]
  • r次平均収束は、確率収束を意味する:
  • r次平均収束は、より低次(ただしそれらはいずれも 1 より大きいものとする)の平均収束を意味する:
    provided rs ≥ 1.
  • Xn が定数 c へと分布収束するなら、Xnc へと確率収束する[6][proof]
    provided c is a constant.
  • XnX へと分布収束し、XnYn の差が 0 へと確率収束するなら、Yn もまた X へ分布収束する[6][proof]
  • XnX へ分布収束し、Yn が定数 c へ分布収束するなら、それらの結合ベクトル (Xn, Yn) は (X, c) へ分布収束する[6][proof]
    provided c is a constant.

ここで Yn が定数へ収束するという条件が重要であることに注意されたい。もしその収束がある確率変数 Y へのものであったら、(Xn, Yn)(X, Y) へ収束するという結論は得られない。

  • XnX へ確率収束し、YnY へ確率収束するなら、それらの結合ベクトル (Xn, Yn)(X, Y) へ確率収束する[6][proof]
  • XnX へ確率収束し、すべての n およびある b に対して P(|Xn| ≤ b) = 1 が成立するなら、Xn はすべての r ≥ 1 に対して X へと r次平均収束する。言い換えると、XnX へと確率収束し、すべての Xn がほとんど確実に上下とも有界であるなら、Xn は任意の r について Xr次平均収束する。
  • 概収束表現:通常、分布収束は概収束を意味するものではない。しかし、X0 へ分布収束するある与えられた列 (Xn) に対しては、新しい確率空間 (Ω, F, P) とその上で定義される確率変数 (Yn, n = 0, 1, …) で、各 n ≥ 0 に対して Yn は分布として Xn に等しく、また YnY0 へと概収束するようなものを見つけることが常に可能である[8]
  • すべての ε > 0 に対して
であるとき、XnX へとほとんど完全に (almost completely) 収束すると言う。XnX へほとんど完全に収束するなら、それはまた X へ概収束もする。言い換えると、もし Xn が十分に早く X へ確率収束する[注釈 1]なら、XnX へ概収束もする。これは、ボレル・カンテリの補題からの直接的な帰結である。
  • Snn 個の実独立な確率変数の和
としたとき、Sn が概収束することと確率収束することは同値である。
  • 優収束定理は、概収束が L1-収束を意味するための十分条件を与える:
  • L1 収束のための必要十分条件は、 かつ列 (Xn)一様可積分であることである。

脚注

注釈

  1. ^ すなわち、上述の末尾確率の列が任意の ε > 0 に対して直和可能である。

出典

  1. ^ Bickel et al. 1998, A.8, page 475
  2. ^ van der Vaart & Wellner 1996, p. 4
  3. ^ Romano & Siegel 1985, Example 5.26
  4. ^ Dudley 2002, p. 289
  5. ^ Porat, B. (1994). Digital Processing of Random Signals: Theory & Methods. Prentice Hall. p. 19. ISBN 0-13-063751-3 
  6. ^ a b c d e f van der Vaart 1998, Theorem 2.7
  7. ^ Gut, Allan (2005). Probability: A graduate course. Theorem 3.4: Springer. ISBN 0-387-22833-0 
  8. ^ van der Vaart 1998, Th.2.19

参考文献

  • Bickel, Peter J.; Klaassen, Chris A.J.; Ritov, Ya’acov; Wellner, Jon A. (1998). Efficient and adaptive estimation for semiparametric models. New York: Springer-Verlag. ISBN 0-387-98473-9. LCCN QA27-6800 
  • Billingsley, Patrick (1986). Probability and Measure. Wiley Series in Probability and Mathematical Statistics (2nd ed.). Wiley 
  • Billingsley, Patrick (1999). Convergence of probability measures (2nd ed.). John Wiley & Sons. pp. 1–28. ISBN 0-471-19745-9 
  • Dudley, R.M. (2002). Real analysis and probability. Cambridge, UK: Cambridge University Press. ISBN 0-521-80972-X 
  • Grimmett, G.R.; Stirzaker, D.R. (1992). Probability and random processes (2nd ed.). Clarendon Press, Oxford. pp. 271–285. ISBN 0-19-853665-8 
  • Jacobsen, M. (1992). Videregående Sandsynlighedsregning (Advanced Probability Theory) (3rd ed.). HCØ-tryk, Copenhagen. pp. 18–20. ISBN 87-91180-71-6 
  • Ledoux, Michel; Talagrand, Michel (1991). Probability in Banach spaces. Berlin: Springer-Verlag. pp. xii+480. ISBN 3-540-52013-9. MR1102015 
  • Romano, Joseph P.; Siegel, Andrew F. (1985). Counterexamples in probability and statistics. Great Britain: Chapman & Hall. ISBN 0-412-98901-8. LCCN 85-19024 
  • van der Vaart, Aad W.; Wellner, Jon A. (1996). Weak convergence and empirical processes. New York: Springer-Verlag. ISBN 0-387-94640-3. LCCN 95-49099 
  • van der Vaart, Aad W. (1998). Asymptotic statistics. New York: Cambridge University Press. ISBN 978-0-521-49603-2. LCCN 98-15176 
  • Williams, D. (1991). Probability with Martingales. Cambridge University Press. ISBN 0-521-40605-6 
  • Wong, E.; Hájek, B. (1985). Stochastic Processes in Engineering Systems. New York: Springer–Verlag 

本項目は Creative Commons Attribution-ShareAlike 3.0 Unported License でライセンスされた Citizendium の項目 "Stochastic convergence" に由来する内容を含みます。GFDL の下ではライセンスされません。

関連項目