バギング

ブートストラップ集約: bootstrap aggregating)やブートストラップ・アグリゲーティングバギング: bagging)とは、統計的分類および回帰で使われる機械学習アルゴリズムの安定性と精度を改善するために設計されたアンサンブル学習メタアルゴリズムである。バギングはバリアンス(分散)を縮小させ、過剰適合を避けることも助ける。通常は決定木に適用されるものの、どんな手法にも使うことができる。バギングはモデル平均化手法の一種である。

手法

大きさ n の訓練データ D があり、離散一様分布に従い重複を認めてサンプリングを行い(ブートストラップ法)、サイズ n' の新しい訓練データ D' を m 個生成する。重複を認めてサンプリングしているので、同じデータが複数回出現することがある。m 個の訓練データセット D' から m 回学習し、平均(回帰の場合)や投票(分類の場合)などで m 個の出力をまとめて最終的な学習結果の出力とする。

歴史

Bagging (Bootstrap aggregating) は、ランダムに生成された訓練セットの分類を組み合わせることによって分類を改善するために1994年[1]レオ・ブレイマン英語版によって提唱された。

参照

  1. ^ Breiman, Leo (September 1994). “Bagging Predictors”. Department of Statistics, University of California Berkeley Technical Report No. 421. https://www.stat.berkeley.edu/~breiman/bagging.pdf 2019年7月28日閲覧。. 

関連項目