文字列 BANANA
に $
を補った接尾辞木。根から葉(四角で表示)への6つの経路が6つの接尾辞 A$
, NA$
, ANA$
, NANA$
, ANANA$
, BANANA$
に対応。四角の中の数字は対応する接尾辞の開始位置を示す。接尾辞リンクは破線の矢印で示されている。
接尾辞木 (せつびじき)またはサフィックス木 (英 : Suffix tree )は、与えられた文字列 の接尾部 を木構造 (基数木 )で表すデータ構造 であり、多くの文字列操作の高速な実装に利用されている。
文字列
S
{\displaystyle S}
の接尾辞木は木構造 であり、その枝には文字列が対応し、木構造の根から葉までの経路ごとにそれぞれ
S
{\displaystyle S}
の接尾部の1つが対応している。従って、これは
S
{\displaystyle S}
の接尾部に関する基数木 である。
文字列
S
{\displaystyle S}
からそのような木構造を構築するには、
S
{\displaystyle S}
の長さに対して線形な時間と空間を要する。構築できれば、いくつかの操作が高速化される(
S
{\displaystyle S}
の部分文字列を探す、誤字をある程度許容した上での部分文字列特定、正規表現 パターンとのマッチングなど)。接尾辞木は最長共通部分文字列 問題の線形な解法の1つでもある。これらの高速化の代償として、接尾辞木に要するメモリ空間は文字列そのものを格納するのに要するメモリ空間よりもかなり大きくなる。
歴史
この概念は position tree として 1973年、Weiner が初めて紹介した[ 1] 。ドナルド・クヌース はその論文を "Algorithm of the Year 1973" と評した。1976年、McCreight が構築法を大幅に単純化し[ 2] 、1995年には Ukkonen がさらに洗練させた[ 3] [ 4] 。Ukkonen のアルゴリズムは接尾辞木を線形時間かつオンライン で構築する最初のアルゴリズム(文字列全体を入力する前から構築を開始できるアルゴリズム)であった。
接尾部の例
ある文字列の接尾部とは、その文字列の先頭から1文字ずつ文字を除いていった残りの部分文字列全体を指す。例えば、"BANANA" の接尾部は次のようになる。
BANANA
ANANA
NANA
ANA
NA
A
従って、長さ
n
{\displaystyle n}
の文字列の接尾部としては、元の文字列も含めると
n
{\displaystyle n}
個の文字列が存在することになる。
定義
長さ
n
{\displaystyle n}
の文字列
S
{\displaystyle S}
に関する接尾辞木は、木構造として次のように定義される ([ 5] page 90):
根から葉までのそれぞれの経路に
S
{\displaystyle S}
の接尾辞(接尾部)が一対一に対応する。
各枝には空でない文字列が対応する。
根と葉以外のノードには少なくとも2つの子ノードがある。
どのような文字列にもこういった構成の木構造を構築できるわけではないので、
S
{\displaystyle S}
には本来含まれない終端記号(一般に $
で表される)を補うことがある。これにより、ある接尾部が別の接尾部の接頭部とならないようにし、
n
{\displaystyle n}
個の葉が必ず存在して、それぞれが
S
{\displaystyle S}
の
n
{\displaystyle n}
個の接尾部のいずれかに対応するようにする。根以外の中間ノードは全て分岐を伴うので、中間ノードの最大個数は
n
−
1
{\displaystyle n-1}
個となり、全体としては最大
n
+
(
n
−
1
)
+
1
=
2
n
{\displaystyle n+(n-1)+1=2n}
個のノードが存在しうる。
接尾辞木の線形時間構築の鍵となるのは「接尾辞リンク(サフィックスリンク)」である。完全な接尾辞木では、根以外の内部ノードは全て他の内部ノードへの接尾辞リンクを持つ。根からあるノードまでの経路に対応する文字列が
χ
α
{\displaystyle \chi \alpha }
で
χ
{\displaystyle \chi }
が1つの文字、
α
{\displaystyle \alpha }
が(空文字列を含む)文字列であるとき、そのノードから
α
{\displaystyle \alpha }
を経路とするノードへの接尾辞リンクが存在する。図示された接尾辞木では、ANA
に対応するノードから NA
に対応するノードへ接尾辞リンクがある。接尾辞リンクは、接尾辞木を使ったアルゴリズムでも使われる場合がある。
機能
文字のサイズが一定または整数の場合、長さ
n
{\displaystyle n}
の文字列
S
{\displaystyle S}
に関する接尾辞木の構築には
Θ
(
n
)
{\displaystyle \Theta (n)}
の時間がかかる[ 6] 。文字サイズが一定でない場合、構築時間は実装に依存する。以下では文字サイズが一定という前提でコストを表示している。そうでない場合、コストは実装に依存する。
長さ
n
{\displaystyle n}
の文字列
S
{\displaystyle S}
に関する接尾辞木があるとする。あるいは、長さの総和が
n
=
|
n
1
|
+
|
n
2
|
+
.
.
.
+
|
n
K
|
{\displaystyle n=|n_{1}|+|n_{2}|+...+|n_{K}|}
の文字列集合
D
=
{
S
1
,
S
2
,
.
.
.
,
S
K
}
{\displaystyle D=\{S_{1},S_{2},...,S_{K}\}}
の汎用接尾辞木 があるとする。これについて、以下のような機能がある。
文字列検索:
長さ
m
{\displaystyle m}
の文字列
P
{\displaystyle P}
が部分文字列かどうかを
O
(
m
)
{\displaystyle O(m)}
時間で判定する([ 5] page 92)。
長さの総和が
m
{\displaystyle m}
のパターン群
P
1
,
.
.
.
,
P
q
{\displaystyle P_{1},...,P_{q}}
が最初に出現する位置を
O
(
m
)
{\displaystyle O(m)}
時間で検出する(接尾辞木を Ukkonen のアルゴリズムで構築した場合)。
長さの総和が
m
{\displaystyle m}
の部分文字列群が
z
{\displaystyle z}
回出現する全位置を
O
(
m
+
z
)
{\displaystyle O(m+z)}
時間で検出する([ 5] page 123)。
正規表現 P の検索を
n
{\displaystyle n}
の準線形時間で行うことが期待できる([ 7] )。
パターン
P
{\displaystyle P}
の各接尾部について、
P
[
i
.
.
.
m
]
{\displaystyle P[i...m]}
で表される接頭部と
D
{\displaystyle D}
の部分文字列との最長一致を
Θ
(
m
)
{\displaystyle \Theta (m)}
時間で探す([ 5] page 132)。これを
P
{\displaystyle P}
の matching statistics と呼ぶ。
文字列の属性検出:
文字列
S
i
{\displaystyle S_{i}}
と
S
j
{\displaystyle S_{j}}
の最長共通部分文字列 を
Θ
(
n
i
+
n
j
)
{\displaystyle \Theta (n_{i}+n_{j})}
時間で探す([ 5] page 125)。
全ての繰り返し出現する部分文字列(maximal repeats/supermaximal repeats)を
Θ
(
n
+
z
)
{\displaystyle \Theta (n+z)}
時間で探す([ 5] page 144)。
LZW などのLempel-Ziv法の解凍を
Θ
(
n
)
{\displaystyle \Theta (n)}
時間で探す([ 5] page 166)。
最長繰り返し部分文字列を
Θ
(
n
)
{\displaystyle \Theta (n)}
時間で探す。
最短でかつ最頻出する部分文字列を
Θ
(
n
)
{\displaystyle \Theta (n)}
時間で探す。
D
{\displaystyle D}
に現れない
Σ
{\displaystyle \Sigma }
内の最短文字列が
z
{\displaystyle z}
個あるとき、
O
(
n
+
z
)
{\displaystyle O(n+z)}
時間でそれらを探す。
一度だけ出現する最短部分文字列を
Θ
(
n
)
{\displaystyle \Theta (n)}
時間で探す。
各
i
{\displaystyle i}
について
S
i
{\displaystyle S_{i}}
の部分文字列で
D
{\displaystyle D}
内で他に出現しない最短なものを
Θ
(
n
)
{\displaystyle \Theta (n)}
時間で探す。
接尾辞木はノード間の最も近い共通先祖 (LCA) の検索を
Θ
(
n
)
{\displaystyle \Theta (n)}
時間でできる([ 5] chapter 8)。また、以下のようなことも可能である。
接尾部
S
i
[
p
.
.
n
i
]
{\displaystyle S_{i}[p..n_{i}]}
と
S
j
[
q
.
.
n
j
]
{\displaystyle S_{j}[q..n_{j}]}
の最長共通接頭部 を
Θ
(
1
)
{\displaystyle \Theta (1)}
時間で探す([ 5] page 196)、
長さ
m
{\displaystyle m}
のパターン
P
{\displaystyle P}
を最大
k
{\displaystyle k}
文字の不一致を許容した上で探すとき、
z
{\displaystyle z}
個見つかる場合の時間が
O
(
k
n
+
z
)
{\displaystyle O(kn+z)}
となる([ 5] page 200)。
最長の回文 を
Θ
(
n
)
{\displaystyle \Theta (n)}
時間で探す([ 5] page 198)。長さ
g
{\displaystyle g}
のギャップを含む場合は
Θ
(
g
n
)
{\displaystyle \Theta (gn)}
、
k
{\displaystyle k}
文字の不一致を許す場合は
Θ
(
k
n
)
{\displaystyle \Theta (kn)}
となる([ 5] page 201)。
z
{\displaystyle z}
個の連続の繰り返し(tandem repeats)を
O
(
n
log
n
+
z
)
{\displaystyle O(n\log n+z)}
時間で探す。k文字の不一致を許容する場合
O
(
k
n
log
(
n
/
k
)
+
z
)
{\displaystyle O(kn\log(n/k)+z)}
となる([ 5] page 204)。
D
{\displaystyle D}
内の少なくとも
k
{\displaystyle k}
個(
k
=
2..
K
{\displaystyle k=2..K}
)の文字列にある最長共通部分文字列 を
Θ
(
n
)
{\displaystyle \Theta (n)}
時間で探す([ 5] page 205)。
応用
接尾辞木はバイオインフォマティクス で、DNA や蛋白質 を長い文字列に見立てたパターン検索によく使われる。接尾辞木の最大の利点は、ミスマッチを許容した効率的な検索能力である。また、繰り返しのデータを検出できることからデータ圧縮 にも使われ、ブロックソート のソート段階でも使われる。データ圧縮法のLZW の一種であるLZSS でも使われている。接尾辞木を使ったデータ・クラスタリング のアルゴリズムが一部の検索エンジンに使われている。
実装
各ノードまたは枝に要するメモリ空間を
Θ
(
1
)
{\displaystyle \Theta (1)}
で表すと、接尾辞木全体には
Θ
(
n
)
{\displaystyle \Theta (n)}
の空間が必要である。枝の長さ(対応する文字数)の総和は
O
(
n
2
)
{\displaystyle O(n^{2})}
だが、各枝に対応する情報は S の部分文字列の位置と長さであり(部分文字列のコピーを枝ごとに持つ必要はない)、全体として必要なメモリ空間は
Θ
(
n
)
{\displaystyle \Theta (n)}
ワードとなる。最悪の場合の例として、フィボナッチ列 を接尾辞木で表すと、
2
n
{\displaystyle 2n}
個のノードを要する。
接尾辞木を実装する際の重要な問題として、親ノードと子ノードの関係の表し方がある。最も典型的な実装は「兄弟リスト; sibling list」と呼ばれる線形リスト を使う方法である。各ノードが最初の子ノードへのポインタを持ち、子ノード同士を線形リストでつなぐ(子供同士のリストなので兄弟リスト)。ハッシュテーブル 、ソート済み/未ソート配列 (動的配列 )、平衡2分探索木 なども使われ、それぞれ実行時間特性が異なる。ここでは以下に注目する。
ある文字に対応する子ノードを探すコスト
子ノードを挿入するコスト
あるノードの全子ノードをリストアップするコスト(下表では子ノード数で割った値)
文字のサイズ(種類)を
σ
{\displaystyle \sigma }
としたとき、コストは以下のようになる。
参照
挿入
検索
兄弟リスト/未ソート配列
O
(
σ
)
{\displaystyle O(\sigma )}
Θ
(
1
)
{\displaystyle \Theta (1)}
Θ
(
1
)
{\displaystyle \Theta (1)}
ハッシュテーブル
Θ
(
1
)
{\displaystyle \Theta (1)}
Θ
(
1
)
{\displaystyle \Theta (1)}
O
(
σ
)
{\displaystyle O(\sigma )}
平衡探索木
O
(
log
σ
)
{\displaystyle O(\log \sigma )}
O
(
log
σ
)
{\displaystyle O(\log \sigma )}
O
(
1
)
{\displaystyle O(1)}
ソート済配列
O
(
log
σ
)
{\displaystyle O(\log \sigma )}
O
(
σ
)
{\displaystyle O(\sigma )}
O
(
1
)
{\displaystyle O(1)}
ハッシュ + 兄弟リスト
O
(
1
)
{\displaystyle O(1)}
O
(
1
)
{\displaystyle O(1)}
O
(
1
)
{\displaystyle O(1)}
なお、挿入コストは償却計算量(amortized complexity)であり、ハッシュ操作のコストは衝突が発生しない完全ハッシュを前提としている。
各ノードや枝に情報が分散するため、接尾辞木は効率が悪く、よい実装であっても元の文字列の約10倍から20倍のメモリを消費する。接尾辞配列 はこれを4倍程度に削減でき、研究者はさらなるメモリ使用量削減方法を模索している。
関連項目
参考文献
^ P. Weiner (1973年). "Linear pattern matching algorithm". 14th Annual IEEE Symposium on Switching and Automata Theory . pp. 1–11.
^ Edward M. McCreight (1976年). “A Space-Economical Suffix Tree Construction Algorithm” . Journal of the ACM 23 (2): 262--272. http://doi.acm.org/10.1145/321941.321946 .
^ E. Ukkonen (1995年). “On-line construction of suffix trees” . Algorithmica 14 (3): 249--260. http://www.cs.helsinki.fi/u/ukkonen/SuffixT1withFigs.pdf .
^ R. Giegerich and S. Kurtz (1997年). “From Ukkonen to McCreight and Weiner: A Unifying View of Linear-Time Suffix Tree Construction” . Algorithmica 19 (3): 331--353. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.55.9399 .
^ a b c d e f g h i j k l m n Gusfield, Dan (1999年) [1997]. Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology . USA: Cambridge University Press. ISBN 0-521-58519-8
^ Martin Farach (1997). "Optimal suffix tree construction with large alphabets" . Foundations of Computer Science, 38th Annual Symposium on . pp. 137--143.
^ Ricardo A. Baeza-Yates and Gaston H. Gonnet (1996年). “Fast text searching for regular expressions or automaton searching on tries” . Journal of the ACM (ACM Press) 43 (6): 915--936. doi :10.1145/235809.235810 . ISSN 0004-5411 . http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.133.2155 .
外部リンク