紹爾-謝拉赫引理,經帕约尔推廣的版本:對於每個有限族(綠色),都存在同樣多個集合組成的另一族(藍色),使得藍色族中每個集合,都被綠色族「打碎 」。
组合数学 和極值集合論 中,紹爾-謝拉赫引理 (英語:Sauer–Shelah lemma )斷言,若集合族 的VC维 低,則該族不能有太多個集合。引理得名於諾貝特·紹爾[ 1] 和薩哈龍·謝拉赫 [ 2] ,兩人分別獨立於1972年發表此結果。[ 註 1] 較之略早,在1971年,弗拉基米尔·瓦普尼克 和亞歷克塞·澤范蘭傑斯 合著的論文[ 6] 已有此結果(「VC維」即以兩人為名)。謝拉赫發表引理時,亦歸功於米哈·佩爾萊斯 ,故引理又稱為佩爾萊斯-紹爾-謝拉赫引理 。[ 7]
布萨格洛等人稱其為「關於VC維的最根本結論之一」[ 7] 。引理在若干方面有應用,就各發現者的研究動機而言,紹爾是研究集族的組合學 ,謝拉赫研究模型论 ,VC二氏則研究统计学 。後來,引理亦用於离散几何 [ 8] 和图论 [ 9] 。
定義及敍述
設
F
=
{
S
1
,
S
2
,
…
}
{\displaystyle \textstyle {\mathcal {F}}=\{S_{1},S_{2},\dots \}}
為一族集合,
T
{\displaystyle T}
為另一集,此時所謂
T
{\displaystyle T}
為
F
{\displaystyle {\mathcal {F}}}
的碎裂集 ,意思是
T
{\displaystyle T}
的每個子集(包括空集 和
T
{\displaystyle T}
本身),皆可表示成
T
{\displaystyle T}
與該族某集之交
T
∩
S
i
{\displaystyle T\cap S_{i}}
。
F
{\displaystyle {\mathcal {F}}}
的VC維是其打碎的最大集的大小 。
利用以上術語,紹爾-謝拉赫引理可以寫成:
若
F
{\displaystyle {\mathcal {F}}}
是一族集合,且各集合中,合共衹有
n
{\displaystyle n}
個不同元素,但
|
F
|
>
∑
i
=
0
k
−
1
(
n
i
)
{\displaystyle \textstyle |{\mathcal {F}}|>\sum _{i=0}^{k-1}{\binom {n}{i}}}
,則
F
{\displaystyle {\mathcal {F}}}
打碎某個
k
{\displaystyle k}
元集合。
所以,若
F
{\displaystyle {\mathcal {F}}}
的VC維為
k
{\displaystyle k}
(故不打碎任何
k
+
1
{\displaystyle k+1}
元集),則
F
{\displaystyle {\mathcal {F}}}
中至多衹有
∑
i
=
0
k
(
n
i
)
=
O
(
n
k
)
{\displaystyle \textstyle \sum _{i=0}^{k}{\binom {n}{i}}=O(n^{k})}
個集合。
引理所給的界已是最優:考慮
n
{\displaystyle n}
元集
{
1
,
2
,
…
,
n
}
{\displaystyle \{1,2,\dots ,n\}}
中,所有小於
k
{\displaystyle k}
個元素的子集,所成的族
F
{\displaystyle {\mathcal {F}}}
。該族的大小恰為
∑
i
=
0
k
−
1
(
n
i
)
{\displaystyle \textstyle \sum _{i=0}^{k-1}{\binom {n}{i}}}
,但是不打碎任何
k
{\displaystyle k}
元集。[ 10]
打碎多少集合
帕约尔將紹爾-謝拉赫引理加強為:[ 12]
有限族
F
{\displaystyle {\mathcal {F}}}
必打碎至少
|
F
|
{\displaystyle |{\mathcal {F}}|}
個集合。
紹爾-謝拉赫引理為其直接推論,因為
n
{\displaystyle n}
元全集的子集中,衹有
∑
i
=
0
k
−
1
(
n
i
)
{\displaystyle \textstyle \sum _{i=0}^{k-1}{\binom {n}{i}}}
個的元素個數小於
k
{\displaystyle k}
。故
|
F
|
>
∑
i
=
0
k
−
1
(
n
i
)
{\displaystyle \textstyle |{\mathcal {F}}|>\sum _{i=0}^{k-1}{\binom {n}{i}}}
時,即使全部小集皆已打碎,仍不足
|
F
|
{\displaystyle |{\mathcal {F}}|}
個,故必有打碎某個不少於
k
{\displaystyle k}
元的集合。
亦可將「碎裂」的概念加以限縮,變成「順序碎裂」(order-shattered )。此時,任意集族順序打碎的集合數,必恰好等於該族的大小。[ 11]
證
紹爾-謝拉赫引理的帕約爾變式可使用数学归纳法 證明,此證法一說出自諾加·阿隆 [ 13] ,一說出自朗·阿哈羅尼 及朗·霍爾茲曼(Ron Holzman )[ 11] 。
作為歸納法的起始步驟,單一個集合組成的族
F
{\displaystyle {\mathcal {F}}}
,能打碎空集 ,已足
|
F
|
{\displaystyle |{\mathcal {F}}|}
個。
至於遞推步驟,可假設引理對任意少於
|
F
|
{\displaystyle |{\mathcal {F}}|}
個集合組成的族皆成立,且族
F
{\displaystyle {\mathcal {F}}}
有至少兩個集合,故可選取元素
x
{\displaystyle x}
為其一的元素,但不屬於另一集。如此便可將
F
{\displaystyle {\mathcal {F}}}
的集合分成兩類:包含
x
{\displaystyle x}
的集合歸入子族
F
1
{\displaystyle {\mathcal {F}}_{1}}
,不含
x
{\displaystyle x}
的則歸入
F
0
{\displaystyle {\mathcal {F}}_{0}}
。
由歸納假設,兩子族各自打碎的集合數,其和至少為
|
F
0
|
+
|
F
1
|
=
|
F
|
{\displaystyle |{\mathcal {F}}_{0}|+|{\mathcal {F}}_{1}|=|{\mathcal {F}}|}
。
該些碎裂集不能有元素
x
{\displaystyle x}
,因為若要打碎某個有
x
{\displaystyle x}
的集合
A
{\displaystyle A}
,則族中需要有含
x
{\displaystyle x}
的集合,也需要有不含
x
{\displaystyle x}
的集合,纔能使該族各集與
A
{\displaystyle A}
的交集出齊
A
{\displaystyle A}
的全體子集。
若集
S
{\displaystyle S}
衹被一個子族打碎,則數算兩子族打碎的集合時,
S
{\displaystyle S}
計為一個,數
F
{\displaystyle {\mathcal {F}}}
打碎的集合時亦計為一個。但
S
{\displaystyle S}
也可能同時被兩子族打碎,如此,數算兩子族打碎的集合時,會將
S
{\displaystyle S}
計兩次;不過
F
{\displaystyle {\mathcal {F}}}
既打碎
S
{\displaystyle S}
,也打碎
S
∪
{
x
}
{\displaystyle S\cup \{x\}}
,所以
S
{\displaystyle S}
(和
S
∪
{
x
}
{\displaystyle S\cup \{x\}}
)在數
F
{\displaystyle {\mathcal {F}}}
打碎的集合時,也計為兩次。由此,
F
{\displaystyle {\mathcal {F}}}
打碎的集合數,不小於兩子族各自打碎集合數之和,從而不小於
|
F
|
{\displaystyle |{\mathcal {F}}|}
。
紹爾-謝拉赫引理的原始形式還有另一種證明,利用线性代数 及容斥原理 ,該證法由弗龍克爾·彼得 和保奇·亞諾什 給出。[ 8] [ 10]
應用
VC二氏原先將引理應用於證明,若考慮一族VC維固定的事件,則衹需有限多個取樣點,即可近似任意的概率分佈(使取樣所得的事件概率近似該分佈下的事件概率),且取樣點的個數衹取決於VC維數。具體而言,有兩種意義下的近似,各由參數
ε
{\displaystyle \varepsilon }
定義:
取樣集
S
{\displaystyle S}
上的概率分佈定義為原分佈的「
ε
{\displaystyle \varepsilon }
近似」(英語:
ε
{\displaystyle \varepsilon }
-approximation ),意思是每個事件被
S
{\displaystyle S}
以該分佈取樣的概率,與原概率所差不過
ε
{\displaystyle \varepsilon }
。
取樣集
S
{\displaystyle S}
(不設權重)定義為「ε 網 」,意思是概率不小於
ε
{\displaystyle \varepsilon }
的任一事件中,必含
S
{\displaystyle S}
中至少一點。
由定義,
ε
{\displaystyle \varepsilon }
近似必為
ε
{\displaystyle \varepsilon }
網,反之則不一定。
VC二氏以此引理證明,若某集族的VC維為
d
{\displaystyle d}
,則必有大小不過
O
(
d
ε
2
log
d
ε
)
{\displaystyle O({\tfrac {d}{\varepsilon ^{2}}}\log {\tfrac {d}{\varepsilon }})}
的
ε
{\displaystyle \varepsilon }
近似。其後,Haussler & Welzl (1987) [ 14] 和Komlós, Pach & Woeginger (1992) [ 15] 等發表了類似的結果,證明必存在大小為
O
(
d
ε
log
1
ε
)
{\displaystyle O({\tfrac {d}{\varepsilon }}\log {\tfrac {1}{\varepsilon }})}
的
ε
{\displaystyle \varepsilon }
網,具體上界為
d
ε
ln
1
ε
+
2
d
ε
ln
ln
1
ε
+
6
d
ε
{\displaystyle {\tfrac {d}{\varepsilon }}\ln {\tfrac {1}{\varepsilon }}+{\tfrac {2d}{\varepsilon }}\ln \ln {\tfrac {1}{\varepsilon }}+{\tfrac {6d}{\varepsilon }}}
。[ 8] 證明存在小
ε
{\displaystyle \varepsilon }
網的主要方法是,先揀選
O
(
d
ε
log
1
ε
)
{\displaystyle O({\tfrac {d}{\varepsilon }}\log {\tfrac {1}{\varepsilon }})}
個點的隨機樣本
x
{\displaystyle x}
,再獨立揀選另
O
(
d
ε
log
2
1
ε
)
{\displaystyle O({\tfrac {d}{\varepsilon }}\log ^{2}{\tfrac {1}{\varepsilon }})}
個點的隨機樣本
y
{\displaystyle y}
,然後證明以下的不等式:存在某個較大事件
E
{\displaystyle E}
與
x
{\displaystyle x}
不交的概率
p
1
{\displaystyle p_{1}}
,與存在同樣的事件,且該事件與
y
{\displaystyle y}
相交點數大於中位值的概率
p
2
{\displaystyle p_{2}}
,兩概率之比至多為
2
{\displaystyle 2}
。若固定
E
{\displaystyle E}
和
x
∪
y
{\displaystyle x\cup y}
,則
x
{\displaystyle x}
不交
E
{\displaystyle E}
而
y
{\displaystyle y}
與
E
{\displaystyle E}
相交點數多於中位值的概率很小。由紹爾-謝拉赫引理,
E
{\displaystyle E}
與
x
∪
y
{\displaystyle x\cup y}
的交集的可能情況並不太多,計算「存在
E
{\displaystyle E}
滿足條件」的概率時,衹需對每種交集的可能性考慮一個
E
{\displaystyle E}
,因此由併集上界 ,可得
p
1
≤
2
p
2
<
1
{\displaystyle p_{1}\leq 2p_{2}<1}
,故
x
{\displaystyle x}
有非零概率為
ε
{\displaystyle \varepsilon }
網。[ 8]
以上論證說明隨機取樣足夠多個點就可能是
ε
{\displaystyle \varepsilon }
網。此性質以及
ε
{\displaystyle \varepsilon }
網、
ε
{\displaystyle \varepsilon }
近似兩概念本身,皆在机器学习 和概率近似正確學習 方面有應用。[ 16] 计算几何 方面的應用則有範圍搜索 [ 14] 、去随机化 [ 17] 、近似算法 [ 18] [ 19] 。
Kozma & Moran (2013) 利用紹爾-謝拉赫引理的推廣,證明若干圖論 結果,例如:圖的強定向 [ 註 2] 方案數介於其連通 子圖數與邊雙連通 子圖數之間。[ 9]
註
參考文獻
^ Sauer, N. On the density of families of sets. Journal of Combinatorial Theory . Series A. 1972, 13 : 145–147. MR 0307902 . doi:10.1016/0097-3165(72)90019-2 (英语) .
^ Shelah, Saharon. A combinatorial problem; stability and order for models and theories in infinitary languages . Pacific Journal of Mathematics. 1972, 41 : 247–261. MR 0307903 . doi:10.2140/pjm.1972.41.247 . (原始内容 存档于2013-10-05) (英语) .
^ Bottou, Leon. On the Vapnik-Chevonenkis-Sauer lemma . [2022-03-07 ] . (原始内容 存档于2022-03-19) (英语) .
^ Bollobás, Béla; Radcliff, A.J. Defect Sauer results. Journal of Combinatorial Theory, Series A. 1995, 72 : 189–208. doi:10.1016/0097-3165(95)90060-8 (英语) .
^ Smola, Alexander J.; Mendelson, Shahar. Advanced Lectures on Machine Learning. Springer. 2003: 12 . ISBN 9783540364344 (英语) .
^ Vapnik, V. N. ; Červonenkis, A. Ja. The uniform convergence of frequencies of the appearance of events to their probabilities. Akademija Nauk SSSR. 1971, 16 : 264–279. MR 0288823 (英语) .
^ 7.0 7.1 Buzaglo, Sarit; Pinchasi, Rom; Rote, Günter. Topological hypergraphs. Pach, János (编). Thirty Essays on Geometric Graph Theory . Springer. 2013: 71 –81. doi:10.1007/978-1-4614-0110-0_6 (英语) .
^ 8.0 8.1 8.2 8.3 Pach, János ; Agarwal, Pankaj K. Combinatorial geometry . Wiley-Interscience Series in Discrete Mathematics and Optimization. New York: John Wiley & Sons Inc.: 247 –251. 1995. ISBN 0-471-58890-3 . MR 1354145 . doi:10.1002/9781118033203 (英语) .
^ 9.0 9.1 Kozma, László; Moran, Shay. Shattering, Graph Orientations, and Connectivity . Electronic Journal of Combinatorics . 2013, 20 (3). P44 [2022-03-06 ] . Bibcode:2012arXiv1211.1319K . MR 3118952 . arXiv:1211.1319 . (原始内容 存档于2022-05-25) (英语) .
^ 10.0 10.1 Gowers, Timothy . Dimension arguments in combinatorics . Gowers's Weblog: Mathematics related discussions. Example 3. 2008-07-31 [2022-03-12 ] . (原始内容 存档于2022-07-09) (英语) .
^ 11.0 11.1 11.2 Anstee, R. P.; Rónyai, Lajos; Sali, Attila. Shattering news. Graphs and Combinatorics . 2002, 18 (1): 59–73. MR 1892434 . doi:10.1007/s003730200003 (英语) .
^ Pajor, Alain. Sous-espaces
l
1
n
{\displaystyle l_{1}^{n}}
des espaces de Banach. Travaux en Cours 16 . Paris: Hermann. 1985. ISBN 2-7056-6021-6 . MR 0903247 (法语) . 由[ 11] 引述。
^ Kalai, Gil . Extremal Combinatorics III: Some Basic Theorems . Combinatorics and More. 2008-09-28 [2022-03-13 ] . (原始内容 存档于2022-03-13) (英语) .
^ 14.0 14.1 Haussler, David ; Welzl, Emo . ε-nets and simplex range queries. Discrete and Computational Geometry . 1987, 2 (2): 127–151. MR 0884223 . doi:10.1007/BF02187876 .
^ Komlós, János ; Pach, János ; Woeginger, Gerhard . Almost tight bounds for ε-nets. Discrete and Computational Geometry . 1992, 7 (2): 163–173. MR 1139078 . doi:10.1007/BF02187833 . .
^ Blumer, Anselm; Ehrenfeucht, Andrzej; Haussler, David ; Warmuth, Manfred K. Learnability and the Vapnik–Chervonenkis dimension. Journal of the ACM . 1989, 36 (4): 929–965. MR 1072253 . doi:10.1145/76359.76371 .
^ Chazelle, B. ; Friedman, J. A deterministic view of random sampling and its use in geometry. Combinatorica . 1990, 10 (3): 229–249. MR 1092541 . doi:10.1007/BF02122778 .
^ Brönnimann, H.; Goodrich, M. T. Almost optimal set covers in finite VC-dimension. Discrete and Computational Geometry . 1995, 14 (4): 463–479. MR 1360948 . doi:10.1007/BF02570718 .
^ Har-Peled, Sariel . On complexity, sampling, and ε-nets and ε-samples. Geometric approximation algorithms. Mathematical Surveys and Monographs 173 . Providence, RI: American Mathematical Society. 2011: 61–85. ISBN 978-0-8218-4911-8 . MR 2760023 .