次元削減

MNISTと呼ばれる0〜9の数字の画像を含むデータセットに、主成分分析(PCA、左図)と線形オートエンコーダlinear autoencoder、右図)を用いて次元削減した結果を図示したもの。

次元削減(じげんさくげん、: Dimensionality reductiondimension reduction)とは、高次元空間から低次元空間へデータを変換しながら、低次元表現が元データの何らかの意味ある特性を保持することである。

高次元空間でデータを扱うことは、多くの理由から望ましくない。生のデータは次元の呪いの結果、疎になることが多く、データの解析は通常、計算不可能である。

次元削減は、信号処理音声認識ニューロインフォマティクスバイオインフォマティクスなど、大量の観測値や大量の変数を扱う分野で一般的である[1]

次元削減の方法は一般的に線形アプローチと非線形アプローチに分けられる。また、アプローチは特徴選択特徴抽出に分けられる[2] 。次元削減は、ノイズ除去データの可視化クラスター分析、あるいは他の分析を容易にするための中間段階として利用されることがある。

特徴選択

特徴選択とは、入力変数(特徴量、属性と呼ばれることもある)から有用な部分集合を見つけようとする手法のことである。フィルタ(: filter strategy、例としては決定木の情報利得英語版等。)法、ラッパー法(: wrapper strategy、例としては精度を最大化するような探索等。)、埋め込み法(: embedded strategy、モデル学習の過程で予測に対する誤差を基に特徴を追加、あるいは除去するような方法)等、大きく3つの戦略に分けられる。

回帰分類といったデータ解析においては、元の空間よりも次元を削減した空間で行う方がより精度が高まるとされている[3]

特徴抽出

特徴抽出とは、データを高次元の空間からより低次元の空間に変換することである。変換方法は主成分分析のように線形であるものもあるが、多くは非線形のアプローチである[4][5]。多次元のデータに対しては、多重線形部分空間法英語版によって次元削減を行うことにより、テンソル表現英語版を利用できる[6]

主成分分析

次元削減の線形なアプローチの中で主要なものである主成分分析は、データを低次元空間に対して線形にマッピングする。マッピングの方法としては、低次元表現におけるデータの分散を最大化するようにするものがある。 実際には、データの共分散(あるいは相関係数)の行列を作り、その固有ベクトルを計算する。 最大の固有値に対応する固有ベクトル(主成分)は、元データの分散が最大になる方向を示している。さらに、固有値の大きい順に並べたときの最初の数個の固有ベクトルは、特に低次元の系では系のエネルギーの大部分を占めているため、系の物理的なふるまいを解析するのに役立つ。 勿論、全ての系がこのようなふるまいを示すわけではなく、ケースバイケースである。 主成分分析により、少数の固有ベクトルで張られる空間に次元を削減[注釈 1]できる[要出典]

非負値行列因子分解(NMF)

非負値行列因子分解英語版: Non-negative matrix factorization、NMFとも)は非負の行列を2つの非負の行列の積に分解する方法で、天文学など[7][8]非負値しか取り扱わない分野で有力な方法とされている[9][10]。 NMFはLeeとセバスチャン・スン英語版によって効率的な乗法アルゴリズムが提案され[11][9]て以来よく知られており、継続的に拡張・応用がなされている[11]。例としては、不確さを含めた取り扱い[7]、欠損データを考慮した並列計算[12]、NMFの安定性と線形性へと繋がる逐次的な構成[8][12]画像処理における欠損データを取り扱う更新則[13]等。

オートエンコーダ

オートエンコーダの模式図。エンコーダにより次元削減され、デコーダは次元削減された表現から元の次元のデータを復元する。

オートエンコーダは、非線形の次元削減関数の学習と、その逆関数である次元削減された表現から元の表現へ変換する関数の両方を学習するために利用される[14]

t-SNE

t分布型確率的近傍埋め込み法(: t-SNE)は、高次元データセット可視化に有用な非線形の次元削減手法である。 必ずしも密度や距離が保存されるわけではないため、クラスタリング外れ値の検出といった用途には推奨されない[15]

脚注

注釈

  1. ^ むろんデータは失われるものの、最も重要な分散が保持されることを期待している。

出典

  1. ^ Postma, Eric; van den Herik, Jaap; van der Lubbe, Jan (2007-04). “Paintings and writings in the hands of scientists”. Pattern Recognition Letters 28 (6): 671–672. doi:10.1016/j.patrec.2006.08.006. ISSN 0167-8655. https://doi.org/10.1016/j.patrec.2006.08.006. 
  2. ^ Pudil, Pavel; Novovičová, Jana (1998), Novel Methods for Feature Subset Selection with Respect to Problem Knowledge, Springer US, pp. 101–116, ISBN 978-1-4613-7622-4, https://doi.org/10.1007/978-1-4615-5725-8_7 2022年1月23日閲覧。 
  3. ^ Rico-Sulayes, Antonio (2017). “Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution”. Revista Ingeniería Electrónica, Automática y Comunicaciones 38 (3): 26–35. ISSN 1815-5928. https://rielac.cujae.edu.cu/index.php/rieac/article/view/478. 
  4. ^ Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. ISBN 0-12-369446-9
  5. ^ C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data, Proceedings of International Conference on Data Mining, 2002
  6. ^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). “A Survey of Multilinear Subspace Learning for Tensor Data”. Pattern Recognition 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004. https://www.dsp.utoronto.ca/~haiping/Publication/SurveyMSL_PR2011.pdf. 
  7. ^ a b Blanton, Michael R.; Roweis, Sam (2007). “K-corrections and filter transformations in the ultraviolet, optical, and near infrared”. The Astronomical Journal 133 (2): 734–754. arXiv:astro-ph/0606170. Bibcode2007AJ....133..734B. doi:10.1086/510127. 
  8. ^ a b Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). “Non-negative Matrix Factorization: Robust Extraction of Extended Structures”. The Astrophysical Journal 852 (2): 104. arXiv:1712.10317. Bibcode2018ApJ...852..104R. doi:10.3847/1538-4357/aaa1f2. 
  9. ^ a b Daniel D. Lee & H. Sebastian Seung (1999). “Learning the parts of objects by non-negative matrix factorization”. Nature 401 (6755): 788–791. Bibcode1999Natur.401..788L. doi:10.1038/44565. PMID 10548103. 
  10. ^ Daniel D. Lee & H. Sebastian Seung (2001). Algorithms for Non-negative Matrix Factorization (PDF). Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. MIT Press. pp. 556–562.
  11. ^ a b 武彦, 安川「非負値行列因子分解を用いたテキストデータ解析」『計算機統計学』第28巻第1号、2015年、42頁、doi:10.20551/jscswabun.28.1_41 
  12. ^ a b Zhu, Guangtun B. (19 December 2016). "Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data". arXiv:1612.06037 [astro-ph.IM]。
  13. ^ Ren, Bin; Pueyo, Laurent; Chen, Christine; Choquet, Elodie; Debes, John H.; Duechene, Gaspard; Menard, Francois; Perrin, Marshall D. (2020). “Using Data Imputation for Signal Separation in High Contrast Imaging”. The Astrophysical Journal 892 (2): 74. arXiv:2001.00563. Bibcode2020ApJ...892...74R. doi:10.3847/1538-4357/ab7024. 
  14. ^ 範泰, 尾亦「オートエンコーダによる低次元化と可視化」『可視化情報学会誌』第38巻第151号、2018年、10頁、doi:10.3154/jvs.38.151_9 
  15. ^ Schubert, Erich; Gertz, Michael (2017). Beecks, Christian; Borutta, Felix; Kröger, Peer et al.. eds. “Intrinsic t-Stochastic Neighbor Embedding for Visualization and Outlier Detection” (英語). Similarity Search and Applications. Lecture Notes in Computer Science (Cham: Springer International Publishing) 10609: 188–203. doi:10.1007/978-3-319-68474-1_13. ISBN 978-3-319-68474-1. https://link.springer.com/chapter/10.1007/978-3-319-68474-1_13. 

関連項目