MNIST と呼ばれる0〜9の数字の画像を含むデータセットに、主成分分析 (PCA、左図)と線形オートエンコーダ (linear autoencoder 、右図)を用いて次元削減した結果を図示したもの。
次元削減 (じげんさくげん、英 : Dimensionality reduction 、dimension reduction )とは、高次元 空間から低次元空間へデータ を変換しながら、低次元表現が元データの何らかの意味ある特性を保持することである。
高次元空間でデータを扱うことは、多くの理由から望ましくない。生のデータは次元の呪い の結果、疎になることが多く、データの解析は通常、計算不可能である。
次元削減は、信号処理 、音声認識 、ニューロインフォマティクス 、バイオインフォマティクス など、大量の観測値や大量の変数を扱う分野で一般的である[ 1] 。
次元削減の方法は一般的に線形 アプローチと非線形アプローチに分けられる。また、アプローチは特徴選択 と特徴抽出 に分けられる[ 2] 。次元削減は、ノイズ除去 、データの可視化 、クラスター分析 、あるいは他の分析を容易にするための中間段階として利用されることがある。
特徴選択
特徴選択 とは、入力変数(特徴量 、属性と呼ばれることもある)から有用な部分集合を見つけようとする手法のことである。フィルタ(英 : filter strategy 、例としては決定木の情報利得 (英語版 ) 等。)法、ラッパー法(英 : wrapper strategy 、例としては精度を最大化するような探索等。)、埋め込み法(英 : embedded strategy 、モデル学習の過程で予測に対する誤差を基に特徴を追加、あるいは除去するような方法)等、大きく3つの戦略に分けられる。
回帰 や分類 といったデータ解析 においては、元の空間よりも次元を削減した空間で行う方がより精度が高まるとされている[ 3] 。
特徴抽出
特徴抽出 とは、データを高次元の空間からより低次元の空間に変換することである。変換方法は主成分分析 のように線形であるものもあるが、多くは非線形のアプローチである[ 4] [ 5] 。多次元のデータに対しては、多重線形部分空間法 (英語版 ) によって次元削減を行うことにより、テンソル表現 (英語版 ) を利用できる[ 6] 。
主成分分析
次元削減の線形なアプローチの中で主要なものである主成分分析は、データを低次元空間に対して線形にマッピングする。マッピングの方法としては、低次元表現におけるデータの分散を最大化するようにするものがある。
実際には、データの共分散 (あるいは相関係数 )の行列 を作り、その固有ベクトル を計算する。
最大の固有値に対応する固有ベクトル(主成分)は、元データの分散が最大になる方向を示している。さらに、固有値の大きい順に並べたときの最初の数個の固有ベクトルは、特に低次元の系では系のエネルギーの大部分を占めているため、系の物理的なふるまいを解析するのに役立つ。
勿論、全ての系がこのようなふるまいを示すわけではなく、ケースバイケースである。
主成分分析により、少数の固有ベクトルで張られる空間に次元を削減[ 注釈 1] できる[要出典 ] 。
非負値行列因子分解(NMF)
非負値行列因子分解 (英語版 ) (英 : Non-negative matrix factorization 、NMFとも)は非負の行列を2つの非負の行列の積に分解する方法で、天文学など[ 7] [ 8] 非負値しか取り扱わない分野で有力な方法とされている[ 9] [ 10] 。
NMFはLeeとセバスチャン・スン (英語版 ) によって効率的な乗法アルゴリズムが提案され[ 11] [ 9] て以来よく知られており、継続的に拡張・応用がなされている[ 11] 。例としては、不確さを含めた取り扱い[ 7] 、欠損データを考慮した並列計算[ 12] 、NMFの安定性と線形性へと繋がる逐次的な構成[ 8] [ 12] 、画像処理 における欠損データを取り扱う更新則[ 13] 等。
オートエンコーダ
オートエンコーダの模式図。エンコーダにより次元削減され、デコーダは次元削減された表現から元の次元のデータを復元する。
オートエンコーダは、非線形の次元削減関数の学習と、その逆関数である次元削減された表現から元の表現へ変換する関数の両方を学習するために利用される[ 14] 。
t-SNE
t分布型確率的近傍埋め込み法(英 : t-SNE )は、高次元データセット の可視化 に有用な非線形の次元削減手法である。
必ずしも密度や距離が保存されるわけではないため、クラスタリング や外れ値 の検出といった用途には推奨されない[ 15] 。
脚注
注釈
^ むろんデータは失われるものの、最も重要な分散が保持されることを期待している。
出典
^ Postma, Eric; van den Herik, Jaap; van der Lubbe, Jan (2007-04). “Paintings and writings in the hands of scientists” . Pattern Recognition Letters 28 (6): 671–672. doi :10.1016/j.patrec.2006.08.006 . ISSN 0167-8655 . https://doi.org/10.1016/j.patrec.2006.08.006 .
^ Pudil, Pavel; Novovičová, Jana (1998), Novel Methods for Feature Subset Selection with Respect to Problem Knowledge , Springer US, pp. 101–116, ISBN 978-1-4613-7622-4 , https://doi.org/10.1007/978-1-4615-5725-8_7 2022年1月23日 閲覧。
^ Rico-Sulayes, Antonio (2017). “Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution” . Revista Ingeniería Electrónica, Automática y Comunicaciones 38 (3): 26–35. ISSN 1815-5928 . https://rielac.cujae.edu.cu/index.php/rieac/article/view/478 .
^ Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures . Morgan Kaufmann. ISBN 0-12-369446-9
^ C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data , Proceedings of International Conference on Data Mining, 2002
^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). “A Survey of Multilinear Subspace Learning for Tensor Data” . Pattern Recognition 44 (7): 1540–1551. doi :10.1016/j.patcog.2011.01.004 . https://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf .
^ a b Blanton, Michael R.; Roweis, Sam (2007). “K-corrections and filter transformations in the ultraviolet, optical, and near infrared”. The Astronomical Journal 133 (2): 734–754. arXiv :astro-ph/0606170 . Bibcode : 2007AJ....133..734B . doi :10.1086/510127 .
^ a b Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). “Non-negative Matrix Factorization: Robust Extraction of Extended Structures”. The Astrophysical Journal 852 (2): 104. arXiv :1712.10317 . Bibcode : 2018ApJ...852..104R . doi :10.3847/1538-4357/aaa1f2 .
^ a b Daniel D. Lee & H. Sebastian Seung (1999). “Learning the parts of objects by non-negative matrix factorization”. Nature 401 (6755): 788–791. Bibcode : 1999Natur.401..788L . doi :10.1038/44565 . PMID 10548103 .
^ Daniel D. Lee & H. Sebastian Seung (2001). Algorithms for Non-negative Matrix Factorization (PDF) . Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. MIT Press . pp. 556–562.
^ a b 武彦, 安川「非負値行列因子分解を用いたテキストデータ解析 」『計算機統計学』第28巻第1号、2015年、42頁、doi :10.20551/jscswabun.28.1_41 。
^ a b Zhu, Guangtun B. (19 December 2016). "Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data". arXiv :1612.06037 [astro-ph.IM ]。
^ Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H.; Duechene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). “Using Data Imputation for Signal Separation in High Contrast Imaging”. The Astrophysical Journal 892 (2): 74. arXiv :2001.00563 . Bibcode : 2020ApJ...892...74R . doi :10.3847/1538-4357/ab7024 .
^ 範泰, 尾亦「オートエンコーダによる低次元化と可視化 」『可視化情報学会誌』第38巻第151号、2018年、10頁、doi :10.3154/jvs.38.151_9 。
^ Schubert, Erich; Gertz, Michael (2017). Beecks, Christian; Borutta, Felix; Kröger, Peer et al.. eds. “Intrinsic t-Stochastic Neighbor Embedding for Visualization and Outlier Detection” (英語). Similarity Search and Applications . Lecture Notes in Computer Science (Cham: Springer International Publishing) 10609 : 188–203. doi :10.1007/978-3-319-68474-1_13 . ISBN 978-3-319-68474-1 . https://link.springer.com/chapter/10.1007/978-3-319-68474-1_13 .
関連項目