情報幾何学 (じょうほうきかがく、英: information geometry、仏: géométrie de l’information、独: Informationsgeometrie、略称: IG[ 1] )とは、確率分布 を要素とする統計モデルに関する微分幾何学 的研究[ 2] のことであり、狭義には双対アフィン接続 の微分幾何学[ 3] を指す。「数理統計学の微分幾何学化」[ 4] や「統計的推論の幾何学的方法論」[ 5] や「情報理論における微分幾何を用いた定式化」[ 6] と表現されるように、情報幾何学は統計学 ・情報理論 ・確率理論 (大偏差理論)にまたがる[ 7] 学際的な分野である。
概要
情報幾何学の理論的な枠組みは統計学の言葉を必要とせず、純粋な微分幾何学の概念のみで定式化できる。
統計多様体 の定義にはいくつかの流儀が存在するが現在最も標準的[ 8] なのは黒瀬 (1994)[ 9] によるものであり、
C
∞
{\displaystyle C^{\infty }}
級多様体
M
{\displaystyle M}
と
M
{\displaystyle M}
上の捩れ のないアフィン接続
∇
{\displaystyle \nabla }
と擬リーマン計量
g
{\displaystyle g}
の組
(
M
,
∇
,
g
)
{\displaystyle (M,\nabla ,g)}
で
(
0
,
3
)
{\displaystyle (0,3)}
テンソル場
∇
g
{\displaystyle \nabla g}
が対称なものと定義し、組
(
∇
,
g
)
{\displaystyle (\nabla ,g)}
を統計構造 という。
∇
∗
{\displaystyle \nabla ^{*}}
が
∇
{\displaystyle \nabla }
の
g
{\displaystyle g}
に関する双対(アフィン)接続 であるとは、任意の
M
{\displaystyle M}
上のベクトル場
X
,
Y
,
Z
{\displaystyle X,Y,Z}
に対してライプニッツ則 の類似
X
g
(
Y
,
Z
)
=
g
(
∇
X
Y
,
Z
)
+
g
(
Y
,
∇
X
∗
Z
)
{\displaystyle Xg(Y,Z)=g(\nabla _{X}Y,Z)+g(Y,\nabla _{X}^{*}Z)}
が成り立つことであり、組
(
M
,
g
,
∇
∗
)
{\displaystyle (M,g,\nabla ^{*})}
を双対統計多様体 という。
∇
{\displaystyle \nabla }
が平坦であるならば
∇
∗
{\displaystyle \nabla ^{*}}
も平坦であるので、組
(
M
,
g
,
∇
,
∇
∗
)
{\displaystyle (M,g,\nabla ,\nabla ^{*})}
を双対平坦空間 といい、組
(
g
,
∇
,
∇
∗
)
{\displaystyle (g,\nabla ,\nabla ^{*})}
を双対構造 という。もともと統計多様体は、ラウリッツィン (英語版 ) によってリーマン多様体
(
M
,
g
)
{\displaystyle (M,g)}
と甘利・チェンツォフテンソル場 と呼ばれる
(
0
,
3
)
{\displaystyle (0,3)}
対称テンソル 場
C
{\displaystyle C}
の組
(
M
,
g
,
C
)
{\displaystyle (M,g,C)}
として定義されていた[ 10] が、両者は基本的に 等価である[ 11] 。
∇
{\displaystyle \nabla }
が平坦であるならば、テンソル場
∇
g
{\displaystyle \nabla g}
が対称であることとある関数
ϕ
{\displaystyle \phi }
が存在して局所的に
g
=
∇
d
ϕ
{\displaystyle g=\nabla d\phi }
と表されることは同値であり[ 12] [ 13] 、これはヘッシアン に他ならないので
∇
{\displaystyle \nabla }
が平坦な統計多様体は1970年代に志磨裕彦が定義したヘッセ多様体 と一致しており、その統計構造をヘッセ構造 、関数
ϕ
{\displaystyle \phi }
をヘッセ・ポテンシャル という[ 14] 。ヘッセ構造はAdS/CFT対応 におけるBTZブラックホール に見出されることが知られている[ 15] [ 16] 。
歴史
情報幾何学のアイデアは、1929年にハロルド・ホテリング が記した草稿[ 17] [ 18] に遡ることができる[ 19] 。ホテリングはフィッシャー情報行列
g
i
j
(
ξ
)
=
E
ξ
[
∂
i
l
ξ
∂
j
l
ξ
]
{\displaystyle g_{ij}(\xi )=E_{\xi }[\partial _{i}l_{\xi }\partial _{j}l_{\xi }]}
(ただし
∂
i
=
∂
/
∂
θ
i
{\displaystyle \partial _{i}=\partial /\partial \theta ^{i}}
と
l
ξ
=
log
p
(
x
;
ξ
)
{\displaystyle l_{\xi }=\log p(x;\xi )}
は情報幾何学でよく見られる略記である)が統計モデルにリーマン計量 (フィッシャー計量 )を定めることを考察し[ 20] 、1945年にクラメール・ラオ (英語版 ) も独立にそのことを指摘した[ 21] 。さらに1972年にはニコライ・チェンツォフ (ロシア語版 ) が、マルコフ埋め込みに関する不変性の下では、リーマン計量が(定数倍を除いて)フィッシャー計量だけに限られ、アフィン接続 も(1次元実数パラメータの自由度を除いて)一意に定まることを有限集合上の確率分布の場合について証明した[ 22] [ 23] (チェンツォフの定理 [ 24] )。一方、1975年にブラッドリー・エフロン (英語版 ) は統計的推論の高次漸近理論において、指数型分布族 に埋め込まれた統計モデル(曲指数型分布族)にある種の埋め込み曲率 を定義し[ 25] 、フィリップ・デイヴィッド (英語版 ) はその曲率がフィッシャー計量に関して非計量的なあるアフィン接続から定まることを指摘し、それをエフロン接続と命名した[ 26] 。
このような状況に対し1982年に甘利俊一 は、パラメトリックな統計モデル
M
=
{
p
θ
}
{\displaystyle M=\{p_{\theta }\}}
に対し
g
(
∇
∂
i
(
α
)
∂
j
,
∂
k
)
=
Γ
i
j
,
k
(
α
)
=
E
ξ
[
(
∂
i
∂
j
l
ξ
+
1
−
α
2
∂
i
l
ξ
∂
j
l
ξ
)
(
∂
k
l
ξ
)
]
{\displaystyle g(\nabla _{\partial _{i}}^{(\alpha )}\partial _{j},\partial _{k})=\Gamma _{ij,k}^{(\alpha )}=E_{\xi }\left[\left(\partial _{i}\partial _{j}l_{\xi }+{\frac {1-\alpha }{2}}\partial _{i}l_{\xi }\partial _{j}l_{\xi }\right)\left(\partial _{k}l_{\xi }\right)\right]}
を満たす
M
{\displaystyle M}
上の対称なアフィン接続
∇
(
α
)
{\displaystyle \nabla ^{(\alpha )}}
を
α
{\displaystyle \alpha }
接続 (
α
∈
R
{\displaystyle \alpha \in \mathbf {R} }
)と定義して[ 27] 一般論を展開することに成功した[ 28] 。実際、有限集合上の確率分布において
α
{\displaystyle \alpha }
接続はチェンツォフの定めたアフィン接続の1係数族と一致しており[ 29] 、特に
α
=
1
{\displaystyle \alpha =1}
に対応する e 接続 (指数接続 )はエフロン接続と一致しており[ 30] 、
α
=
0
{\displaystyle \alpha =0}
に対応する
0
{\displaystyle 0}
接続はフィッシャー計量に関するレヴィ・チヴィタ接続 に他ならなかった[ 31] 。この一般化を契機として、フィッシャー計量と
α
{\displaystyle \alpha }
接続の成す微分幾何学的構造、特に先述の e 接続と
α
=
−
1
{\displaystyle \alpha =-1}
に対応する m 接続 (混合接続 )が調べられるようになり[ 32] 、e 接続の平坦性は統計モデルの最適性を、m 接続の平坦性は推定の最適性を曲率テンソルを使って定量評価することを可能にした[ 33] 。
甘利はさらに、1982年に長岡浩司と共同で情報幾何の双対構造を発表し[ 34] 、1983年に公文雅之と共同で統計的推論の高次漸近理論の幾何を提唱した[ 13] [ 35] 。1984年にデイヴィッド・コックス が統計の微分幾何に関するワークショップをロンドンで開催したのを皮切りに[ 36] 、少しずつ世界的な知名度が上がって研究が活発化するようになった[ 37] 。江口真透が情報幾何をダイバージェンス を基に構築できることを示したのはその翌年のことであり[ 38] 、双対平坦空間や正準ダイバージェンスなどの一般論が整備されるにつれて情報幾何学はその地位を確立することに成功した。
情報幾何学の応用は、EMアルゴリズム [ 39] [ 40] のような統計的推論のみならず、統計物理学 [ 41] [ 42] や学習理論[ 43] 、情報熱力学[ 44] [ 45] にまで及んでおり、2018年にはこのような進展を背景にシュプリンガー社 から学術誌 Information Geometry が刊行されることが決定した。今後はさらに、量子情報幾何[ 46] [ 47] やワッサースタイン幾何[ 48] 、ルピナー幾何 (英語版 ) などの発展も期待されている。人工知能 の分野では、ニューラルネット や神経発火パターンの情報の解釈に応用され始めている。超弦理論 と量子情報 を結ぶ学術領域では、情報幾何学が応用され始めている。
注釈と出典
^ Nielsen, Frank (2020). “An Elementary Introduction to Information Geometry” . Entropy 22 (10): 1100. doi :10.3390/e22101100 . ISSN 1099-4300 . PMC 7650632 . PMID 33286868 . https://www.mdpi.com/1099-4300/22/10/1100 .
^ “情報幾何学”. 岩波数学辞典 . 日本数学会 (4th ed.). 岩波書店. (2007). pp. 543-546. ISBN 978-4-00-080309-0 . OCLC 1086209906
^ 藤原, 彰夫 (2015). 情報幾何学の基礎 . 牧野書店. ISBN 978-4434208812 . OCLC 922844329
^ Goto, Shin-itiro; Hino, Hideitsu (2019). “Information and contact geometric description of expectation variables exactly derived from master equations” . Physica Scripta 95 (1): 015207. doi :10.1088/1402-4896/ab4295 . ISSN 1402-4896 . https://doi.org/10.1088/1402-4896/ab4295 .
^ 松添, 博「統計多様体とアファイン微分幾何学 」『数理解析研究所講究録』第1916巻、2014年、1-17頁、NAID 120006223301 。
^ 伊藤創祐「情報幾何の確率的熱力学による解釈と熱力学不確定性関係 」『日本物理学会講演概要集』第73.2巻、日本物理学会、2018年、2183-2183頁、doi :10.11316/jpsgaiyo.73.2.0_2183 、NAID 130007735919 。
^ 長岡, 浩司「情報幾何の基礎概念 」(PDF)『情報幾何への入門と応用』2006年、1-36頁。
^ 松添, 2014, p. 1
^ Kurose, Takashi (1994). “On the divergences of $1$-conformally flat statistical manifolds” . Tohoku Mathematical Journal 46 (3). doi :10.2748/tmj/1178225722 . ISSN 0040-8735 . https://projecteuclid.org/journals/tohoku-mathematical-journal/volume-46/issue-3/On-the-divergences-of-1-conformally-flat-statistical-manifolds/10.2748/tmj/1178225722.full .
^ Nielsen, 2020, p. 12
^ 松添, 2014, p. 3
^ 日本数学会, 2007, p. 14
^ a b 黒瀬俊「定曲率ヘッセ多様体の分類 (部分多様体の微分幾何学およびその周辺領域の研究) 」『数理解析研究所講究録』第1623巻、京都大学数理解析研究所、2009年1月、22-29頁、CRID 1050282677155302912 、hdl :2433/140260 、ISSN 1880-2818 。
^ 黒瀬, 2009, p. 22
^ 松枝宏明、鈴木達夫「情報幾何におけるBTZブラックホール 」『日本物理学会講演概要集』第73.1巻、日本物理学会、2018年、2702-2702頁、doi :10.11316/jpsgaiyo.73.1.0_2702 、NAID 130007647829 。
^ 鈴木, 達夫 (2018). “BTZブラックホールのヘッセ構造” . 沼津改め静岡研究会 25 . http://www.math.sci.hokudai.ac.jp/~ishikawa/Numazu-Shizuoka/suzukita-25.pdf .
^ Hotelling, Harold (1930). “Spaces of statistical parameters”. Bulletin of the American Mathematical Society 36 : 191.
^ Stigler, Stephen M. (2007). “The Epic Story of Maximum Likelihood” . Statistical Science 22 (4). doi :10.1214/07-STS249 . ISSN 0883-4237 . https://projecteuclid.org/journals/statistical-science/volume-22/issue-4/The-Epic-Story-of-Maximum-Likelihood/10.1214/07-STS249.full .
^ Nielsen, 2020, p. 26
^ 甘利, 俊一 (2020). “情報幾何: その歴史的発展と将来”. 数理科学 689 : 5-6.
^ C. R. Rao (1945). “Information and the accuracy attainable in the estimation of statistical parameters”. Bulletin of the Calcutta Mathematical Society 37 : 81-91.
^ Ченцов Н.Н. (1972). Статистические решающие правила и оптимальные выводы . Наука
^ Chent︠s︡ov, N. N. (1982). Statistical decision rules and optimal inference . L. I︠A︡. Leĭfman. Providence, R.I.: American Mathematical Society. ISBN 0-8218-4502-0 . OCLC 7837189 . https://www.worldcat.org/oclc/7837189
^ 藤原, 彰夫 (2016). “Chentsov の定理とその周辺 (I)” . ミニワークショップ:統計多様体の幾何学とその周辺 8 . http://www.math.sci.hokudai.ac.jp/~furuhata/workshop/stat/16/Fujiwara160912.pdf .
^ Efron, Bradley (1975). “Defining the Curvature of a Statistical Problem (with Applications to Second Order Efficiency)” . The Annals of Statistics 3 (6): 1189-1242. doi :10.1214/aos/1176343282 . ISSN 0090-5364 . https://projecteuclid.org/journals/annals-of-statistics/volume-3/issue-6/Defining-the-Curvature-of-a-Statistical-Problem-with-Applications-to/10.1214/aos/1176343282.full .
^ Dawid, A. P. (1975). “Discussion of Efron”. Annals of Statistics 3 : 1231-1234.
^ 長岡, 2006, p. 8
^ Amari, Shun-Ichi (1982). “Differential Geometry of Curved Exponential Families-Curvatures and Information Loss” . The Annals of Statistics 10 (2). doi :10.1214/aos/1176345779 . ISSN 0090-5364 . https://projecteuclid.org/journals/annals-of-statistics/volume-10/issue-2/Differential-Geometry-of-Curved-Exponential-Families-Curvatures-and-Information-Loss/10.1214/aos/1176345779.full .
^ 現代的にはチェンツォフの定理によって
α
{\displaystyle \alpha }
接続を定義する(藤原, 2015, p. 122)。
^ 「偶然とはいえ、同じ頭文字 e で始まる命名となっていたことは興味深い」(藤原, 2015, p. 127)
^ 日本数学会, 2007, p. 544
^ 日本数学会, 2007, p. 543
^ 江口真透「さまざまな研究パラダイムをつなぐ情報幾何 」『横幹連合コンファレンス予稿集』第2019巻第10回横幹連合コンファレンス、横断型基幹科学技術研究団体連合(横幹連合)、2019年、F-4-4、doi :10.11487/oukan.2019.0_F-4-4 、NAID 130007762476 。
^ Nagaoka, Hiroshi; Amari, Shun-ichi (1982). “Differential Geometry of Smooth Families of Probability Distributions” . METR 82 (7). https://bsi-ni.brain.riken.jp/database/file/86/077.pdf .
^ AMARI, Shun-ichi; KUMON, Masayuki「Geometrical Theory on Estimation of Structural Parameter in the Presence of Infinitely Many Nuisance Parameters 」『数理解析研究所講究録』第507巻、京都大学数理解析研究所、1983年12月、97-116頁、CRID 1050282810620567552 、hdl :2433/103757 、ISSN 1880-2818 。
^ 甘利, 2020, p. 5
^ 甘利俊一「応用数理の遊歩道(26) : 情報幾何の生い立ち 」『応用数理』第11巻第3号、日本応用数理学会、2001年、253-256頁、doi :10.11540/bjsiam.11.3_253 、ISSN 09172270 、NAID 110007390917 。
^ Eguchi, Shinto (1985). “A differential geometric approach to statistical inference on the basis of contrast functionals” . Hiroshima Mathematical Journal 15 (2). doi :10.32917/hmj/1206130775 . ISSN 0018-2079 . https://projecteuclid.org/journals/hiroshima-mathematical-journal/volume-15/issue-2/A-differential-geometric-approach-to-statistical-inference-on-the-basis/10.32917/hmj/1206130775.full .
^ “EM アルゴリズムの幾何学的解釈 ”. 有限混合分布モデルの学習に関する研究 (Web 版) . 赤穂昭太郎. 2021年6月15日 閲覧。
^ 村田, 昇; 池田, 思朗 (2004). 神経回路網と EM アルゴリズム . https://www.ism.ac.jp/~shiro/papers/books/embook2000.pdf .
^ 甘利俊一「情報幾何とその応用 : Vボルツマン機械とEMアルゴリズム 」『システム/制御/情報』第49巻第2号、システム制御情報学会、2005年、64-69頁、doi :10.11509/isciesci.49.2_64 、ISSN 0916-1600 、NAID 110003969659 。
^ 長岡, 2015, pp. 141-154
^ 甘利俊一「情報幾何とその応用 : VIII神経多様体における学習と特異モデル 」『システム/制御/情報』第49巻第8号、システム制御情報学会、2005年、337-343頁、doi :10.11509/isciesci.49.8_337 、ISSN 0916-1600 、NAID 110003983934 。
^ “情報による観測量の変化速度の熱力学的な限界を発見 - 東京大学 大学院理学系研究科・理学部 ”. 2021年6月15日 閲覧。
^ 伊藤, 創祐 (2020). “物理学と情報幾何学: ゆらぐ系の熱力学の視点から” . 数理科学 689 : 38-45. http://sosuke110.com/surikagaku2020.pdf .
^ 長岡浩司「量子情報幾何学の世界 」『総合講演・企画特別講演アブストラクト』第2002巻Spring-Meeting、日本数学会、2002年、24-37頁、doi :10.11429/emath1996.2002.Spring-Meeting_24 、NAID 130005450749 。
^ 渡辺優「量子情報幾何におけるHeisenberg の不確定性関係の位置付け (函数解析学による一般化エントロピーの新展開) 」『数理解析研究所講究録』第1852号、京都大学数理解析研究所、2013年9月、210-216頁、ISSN 1880-2818 、NAID 110009625602 。
^ 高津飛鳥「Wasserstein幾何学と情報幾何学 (特集 情報幾何学の探究 : 基礎と応用,現状と展望に迫る) 」『数理科学』第58巻第11号、サイエンス社、2020年11月、67-73頁、ISSN 0386-2240 、NAID 40022377287 、JAN 4910054691108 。
参考文献
志磨裕彦 (2001).『ヘッセ幾何学』.裳華房. isbn 978-4785315290
甘利俊一; 長岡浩司 (1998).『情報幾何の方法』. 岩波書店. isbn 978-4007306662
甘利俊一 (2019).『新版 情報幾何学の新展開』. サイエンス社. isbn 9784781914633
田中勝 (2019).『エントロピーの幾何学 』 (PDF ) . コロナ社. isbn 978-4339028355
藤岡敦 (2021).『入門 情報幾何: 統計的モデルをひもとく微分幾何学』. 共立出版. isbn 978-4-320-11445-6
藤原彰夫 (2021).『情報幾何学の基礎: 情報の内的構造を捉える新たな地平』. 共立出版. isbn 978-4-320-11451-7