Bootstrap aggregating

Bootstrap aggregating, disebut juga bagging, adalah penggabungan algoritma pembelajaran mesin (machine learning) yang dirancang untuk meningkatkan stabilitas dan akurasi dari algoritma machine learning yang digunakan dalam klasifikasi statistik dan regresi. Bagging juga mengurangi varians dan membantu untuk menghindari terjadinya overfitting. Meskipun biasanya diterapkan untuk metode decision tree, bagging dapat digunakan dengan semua jenis metode. Bagging merupakan kasus khusus dari pendekatan model averaging.

Sejarah

Bagging (Bootstrap aggregating) diusulkan oleh Leo Breiman pada tahun 1994 untuk memodifikasi klasifikasi dengan menggabungkan klasifikasi dengan data latih (training set) yang dihasilkan secara acak.

Deskripsi secara teknik

Diberikan sebuah standar training set yang berukuran n, bagging menghasilkan m training set baru , masing-masing berukuran n', dengan sampling dari D secara uniform dan dengan penggantian (with replacement). Karena sampling dengan penggantian, maka beberapa observasi dapat diulang dalam setiap . Jika n'=n, maka besar n set diharapkan memiliki fraksi (1 - 1/e) (≈63.2%) dari contoh unik dari D, sisanya menjadi duplikat.^[1] Jenis contoh/sampel ini dikenal sebagai bootstrap sampel. Model m dipasang menggunakan sampel bootstrap m di atas dan dikombinasikan dengan rata-rata output (untuk regresi) atau voting (untuk klasifikasi).

Bagging mengarah ke "perbaikan prosedur yang tidak stabil" (Breiman, 1996), yang meliputi jaringan syaraf tiruan, klasifikasi dan pohon regresi, dan seleksi subset dalam regresi linier (Breiman, 1994). Pengaplikasian yang menarik dari bagging yang menunjukkan perbaikan dalam operasi pembelajaran dapat dilihat di sini.^[2]^[3] Di sisi lain, hal ini dapat sedikit menurunkan kinerja metode yang stabil seperti K-NN (Breiman, 1996).

Contoh: Data Ozon

Untuk menggambarkan prinsip-prinsip dasar bagging, berikut ini adalah analisis tentang hubungan antara ozon dan suhu (data berasal dari Rousseeuw dan Leroy (1986), analisis yang dilakukan di R).

Hubungan antara suhu dan ozon dalam kumpulan data ini adalah berupa non-linear, berdasarkan scatter plot. Untuk menggambarkan secara matematis, digunakan LOESS smoothers (dengan bandwidth 0.5). Untuk membangun smoother tunggal dari himpunan data yang lengkap, sebanyak 100 sampel bootstrap diambil. Masing-masing sampel berbeda dari dataset asli tetapi menyerupai dalam hal distribusi dan variabilitas. Untuk masing-masing sampel bootstrap, LOESS smoother cocok digunakan. Prediksi dari 100 smoother kemudian dibuat di seluruh rentang data. 10 predicted smooth pertama muncul sebagai garis abu-abu pada gambar di bawah. Garis-garisnya jelas sangat bergerigi dan overfit dari data sebagai akibat dari bandwidth yang terlalu kecil.

Dengan mengambil rata-rata dari 100 smoothers, masing-masing dipasang ke sebuah subset dari data asli yang ditetapkan, dan tiba di salah satu bagged predictor (garis merah). Dengan rata-rata smoother menjadi lebih stabil dan tidak overfit.

Lihat juga

Referensi

^ Aslam, Javed A.; Popa, Raluca A.; and Rivest, Ronald L. (2007); On Estimating the Size and Confidence of a Statistical Audit, Proceedings of the Electronic Voting Technology Workshop (EVT '07), Boston, MA, August 6, 2007. More generally, when drawing with replacement n′ values out of a set of n (different and equally likely), the expected number of unique draws is $n(1-e^{-n'/n})$ .
^ Sahu, A., Runger, G., Apley, D., Image denoising with a multi-phase kernel principal component approach and an ensemble version, IEEE Applied Imagery Pattern Recognition Workshop, pp.1-7, 2011.
^ Shinde, Amit, Anshuman Sahu, Daniel Apley, and George Runger. "Preimages for Variation Patterns from Kernel PCA and Bagging." IIE Transactions, Vol.46, Iss.5, 2014

Breiman, Leo (1996). "Bagging predictors". Machine Learning. 24 (2): 123–140. doi:10.1007/BF00058655.
Alfaro, E., Gámez, M. and García, N. (2012). "adabag: An R package for classification with AdaBoost.M1, AdaBoost-SAMME and Bagging".

[1] Aslam, Javed A.; Popa, Raluca A.; and Rivest, Ronald L. (2007); On Estimating the Size and Confidence of a Statistical Audit, Proceedings of the Electronic Voting Technology Workshop (EVT '07), Boston, MA, August 6, 2007. More generally, when drawing with replacement n′ values out of a set of n (different and equally likely), the expected number of unique draws is $n(1-e^{-n'/n})$ .

[2] Sahu, A., Runger, G., Apley, D., Image denoising with a multi-phase kernel principal component approach and an ensemble version, IEEE Applied Imagery Pattern Recognition Workshop, pp.1-7, 2011.

[3] Shinde, Amit, Anshuman Sahu, Daniel Apley, and George Runger. "Preimages for Variation Patterns from Kernel PCA and Bagging." IIE Transactions, Vol.46, Iss.5, 2014

[1]

[2]

[3]