ワッサースタイン計量 (ワッサースタインけいりょう、英 : Wasserstein metric )とは、与えられた距離空間 M 上の確率分布 の間に定義される距離函数 である。
直感的な説明としては、各分布をM 上に堆積した土の単位量と見なすとき、ワッサースタイン計量とは一つの堆積を別の物へと移すときにかかる最小のコストである。そのようなコストは、移されるべき土の量に移す距離を掛けた値であるとされる。このアナロジーに従い、この計量は計算機科学 の分野においてEMD (英語版 ) (earth mover's distance)として知られている。
「ワッサースタイン計量」という名前は、この概念を1969年に導入したロシア の数学者 レオニード・ワッサースタイン (英語版 ) の名にちなみ、1970年にローランド・ドブルシン (英語版 ) によって付けられた。多くの英語 の出版物においてはドイツ語 のスペル "Wasserstein" が用いられている(これは、"Vasershtein" という名がドイツ に起源を持つことに起因している)。
定義
(M , d ) を、M 上のすべての確率測度がラドン測度 であるような距離空間(いわゆるラドン空間 )とする。p ≥ 1 に対し、有限p 次モーメント を備えるM 上のすべての確率測度μ の系を P p (M ) で表す。すなわち、そのようなμ はM 内のあるx 0 に対して
∫
M
d
(
x
,
x
0
)
p
d
μ
(
x
)
<
+
∞
{\displaystyle \int _{M}d(x,x_{0})^{p}\,\mathrm {d} \mu (x)<+\infty }
を満たすようなものである。このとき、P p (M ) に含まれる二つの確率測度μ とν の間のワッサースタイン計量(ワッサースタイン距離)は、
W
p
(
μ
,
ν
)
:=
(
inf
γ
∈
Γ
(
μ
,
ν
)
∫
M
×
M
d
(
x
,
y
)
p
d
γ
(
x
,
y
)
)
1
/
p
{\displaystyle W_{p}(\mu ,\nu ):=\left(\inf _{\gamma \in \Gamma (\mu ,\nu )}\int _{M\times M}d(x,y)^{p}\,\mathrm {d} \gamma (x,y)\right)^{1/p}}
で定義される。ここで Γ(μ , ν ) は第一変数と第二変数にそれぞれ周辺分布 μ とν を備えるM × M 上のすべての測度の系を表す。集合 Γ(μ , ν ) はμ とν のすべてのカップリング からなる集合とも呼ばれる。
上述の距離は通常 W p (μ , ν ) ("Wasserstein"という綴りより)、あるいは ℓp (μ , ν ) ("Vasershtein"という綴りより)の記号によって表される。この記事の残りの部分ではW p を使用する。
ワッサースタイン計量には、次のような同値な定義も存在する。
W
p
(
μ
,
ν
)
p
=
inf
E
[
d
(
X
,
Y
)
p
]
.
{\displaystyle W_{p}(\mu ,\nu )^{p}=\inf \mathbf {E} {\big [}d(X,Y)^{p}{\big ]}.}
ここで E [Z ] は確率変数 Z の期待値 を表し、下限 はそれぞれ周辺分布μ とν を備える確率変数X とY のすべての結合分布に対して取られる。
応用
ワッサースタイン計量は、一つの変数がもう一方の(確率論的あるいは決定論的に)非一様な小さい摂動によって得られるような、二つの変数 X と Y の確率分布を比較する際に自然に用いられる。
例えば計算機科学の分野においては、二つのデジタル画像 の色ヒストグラム (英語版 ) といった離散分布を比較する際に、ワッサースタイン計量 W 1 が広く用いられている。詳細についてはEMD (英語版 ) を参照されたい。
性質
距離構造
W p は、P p (M ) 上の距離 の公理 をすべて満たすことが示される。さらに、W p についての収束は、通常の測度の弱収束 (英語版 ) に初めの p 次モーメント収束を加えたものと同値である。
W 1 の双対表現
次に挙げる W 1 の双対表現は、カントロヴィチ とルビンスタインの双対定理(1958年)の特別な場合である:μ と ν が有界 な台 を持つとき、
W
1
(
μ
,
ν
)
=
sup
{
∫
M
f
(
x
)
d
(
μ
−
ν
)
(
x
)
|
continuous
f
:
M
→
R
,
L
i
p
(
f
)
≤
1
}
{\displaystyle W_{1}(\mu ,\nu )=\sup \left\{\left.\int _{M}f(x)\,\mathrm {d} (\mu -\nu )(x)\right|{\mbox{continuous }}f:M\to \mathbb {R} ,\mathrm {Lip} (f)\leq 1\right\}}
が成立する。ここで Lip(f ) は f に関する最小のリプシッツ定数 を表す。
これを、ラドン計量 の定義と比較する:
ρ
(
μ
,
ν
)
:=
sup
{
∫
M
f
(
x
)
d
(
μ
−
ν
)
(
x
)
|
continuous
f
:
M
→
[
−
1
,
1
]
}
.
{\displaystyle \rho (\mu ,\nu ):=\sup \left\{\left.\int _{M}f(x)\,\mathrm {d} (\mu -\nu )(x)\right|{\mbox{continuous }}f:M\to [-1,1]\right\}.}
もし計量 d がある定数 C によって抑えられているなら、
2
W
1
(
μ
,
ν
)
≤
C
ρ
(
μ
,
ν
)
{\displaystyle 2W_{1}(\mu ,\nu )\leq C\rho (\mu ,\nu )}
が得られる。したがって、ラドン計量における収束(M がポーランド空間 であるときの全変動収束 に等しい)は、ワッサースタイン計量における収束を意味する。しかしその逆は一般には成り立たない。
可分性と完備性
任意の p ≥ 1 に対し、計量空間 (P p (M ), W p ) が可分 および完備 であるための十分条件は、(M , d ) が可分および完備であることである。
関連項目
参考文献
Ambrosio, L., Gigli, N. & Savaré, G. (2005). Gradient Flows in Metric Spaces and in the Space of Probability Measures . Basel: ETH Zürich, Birkhäuser Verlag. ISBN 3-7643-2428-7
Jordan, Richard; Kinderlehrer, David and Otto, Felix (1998). “The variational formulation of the Fokker-Planck equation”. SIAM J. Math. Anal. 29 (1): 1–17 (electronic). doi :10.1137/S0036141096303359 . ISSN 0036-1410 . MR 1617171 .
Rüschendorf, L. (2001), “Wasserstein metric” , in Hazewinkel, Michiel, Encyclopedia of Mathematics , Springer, ISBN 978-1-55608-010-4 , https://www.encyclopediaofmath.org/index.php?title=Wasserstein_metric