Dalam pemelajaran mesin, optimasi atau penyetelan hyperparameter[1] (bahasa Inggris: hyperparameter optimization atau tuning hyperparameter) adalah masalah pemilihan sekumpulan hiperparameter yang paling efektif (atau optimal) untuk suatu algoritma pemelajaran. Hiperparameter adalah parameter yang nilainya digunakan untuk mengontrol proses pemelajaran.
Optimasi hiperparameter merupakan sebuah proses dalam pemelajaran mesin yang bertujuan untuk menemukan tupel hiperparameter yang menghasilkan model optimal yang meminimalkan fungsi kerugian yang telah ditentukan sebelumnya pada data independen. Fungsi objektif berperan sebagai panduan dalam proses optimasi. Fungsi ini menerima tupel hiperparameter sebagai input dan menghasilkan nilai kerugian terkait. Semakin rendah nilai kerugian, semakin baik kinerja model.[2]Validasi silang sering kali digunakan untuk memperkirakan performa generalisasi ini. Oleh karena itu, kumpulan nilai untuk hiperparameter dipilih yang dapat memaksimalkannya.[3]
Pendekatan
Pencarian kisi
Cara tradisional untuk melakukan optimasi hiperparameter adalah pencarian kisi (grid search) atau sapuan parameter (parameter sweep). ni adalah proses pencarian menyeluruh dalam sub-bagian ruang hiperparameter yang ditentukan secara manual, untuk algoritma pembelajaran yang digunakan. Algoritma pencarian kisi memerlukan panduan beberapa metrik performa, biasanya diukur dengan validasi silang pada set pelatihan[4] atau evaluasi pada set validasi terpisah.[5]
Karena ruang parameter dari sebuah pemelajar mesin dapat mencakup ruang nilai bernilai riil atau tidak terbatas untuk parameter tertentu, pembatas yang ditetapkan secara manual dan diskritisasi mungkin diperlukan sebelum menerapkan pencarian kisi.
Misalnya, pengklasifikasiSVM "soft margin" yang dilengkapi dengan kernel RBF memiliki setidaknya dua hiperparameter yang perlu disetel untuk mendapatkan performa yang baik pada data yang tidak terlihat, yaitu konstanta regularisasi C dan hiperparameter kernel γ. Kedua parameter tersebut kontinu dan tidak terbatas. Sehingga untuk melakukan pencarian kisi, kumpulan nilai "masuk akal" yang terbatas harus dipilih untuk masing-masing hiperparameter tersebut, misalnya:
Pencarian grid kemudian melatih SVM dengan masing-masing pasangan (C, γ) dalam produk Cartesius dari kedua himpunan tersebut dan mengevaluasi kinerjanya pada set validasi yang terpisah (atau dengan validasi silang internal pada set pelatihan dan dalam hal ini beberapa SVM dilatih per-pasangan). Terakhir, algoritma pencarian kisi mengeluarkan pengaturan atau penyetelan hiperparameter yang mampu mencapai skor tertinggi dalam prosedur validasi.
Pencarian grid memang mengalami kutukan dimensionalitas. Akan tetapi, metode ini sering kali sangat paralel, karena pengaturan hiperparameter yang dievaluasinya biasanya independen satu sama lain.[3]
Pencarian acak
Pencarian Acak (random search) menawarkan alternatif dari enumerasi lengkap yang dilakukan pada pencarian kisi semua kombinasi hiperparameter melalui pemilihan secara acak. Metode ini tidak hanya berlaku untuk pengaturan diskrit, tetapi juga dapat digeneralisasi ke ruang kontinu dan campuran. Dibandingkan dengan pencarian grid, pencarian acak memungkinkan eksplorasi nilai yang jauh lebih luas, terutama untuk hiperparameter kontinu. Keunggulan ini membuatnya berpotensi mengungguli pencarian kisi, khususnya ketika hanya sedikit hiperparameter yang berpengaruh signifikan terhadap kinerja akhir algoritma pembelajaran mesin.[3] Dalam hal ini, masalah optimasi dikatakan mempunyai dimensi intrinsik yang rendah.[6] Lebih lanjut, pencarian acak memiliki sifat sangat paralel dan fleksibel untuk mengakomodasi pengetahuan sebelumnya melalui penentuan distribusi sampel. Meskipun tergolong sederhana, pencarian acak tetap menjadi garis acuan (baseline) penting untuk evaluasi kinerja berbagai metode optimasi hiperparameter terbaru.
Optimasi Bayesian merupakan metode optimasi global yang cocok diterapkan pada fungsi noisy black-box (kotak hitam bising) dalam konteks optimasi hiperparameter. Inti metode ini adalah membangun model probabilitas yang memetakan nilai hiperparameter terhadap nilai objektif yang dievaluasi pada set validasi. Melalui evaluasi konfigurasi hiperparameter yang menjanjikan dan dilakukan secara iteratif (berulang) berdasarkan model terkini, diikuti pembaruan model, optimasi Bayesian berupaya mengumpulkan observasi yang mengungkap informasi sebanyak mungkin tentang fungsi tersebut, khususnya terkait lokasi nilai optimal. Keunikannya terletak pada kemampuan menyeimbangkan eksplorasi (mencoba hiperparameter yang hasilnya belum pasti) dan eksploitasi (fokus pada hiperparameter yang diprediksi mendekati optimal). Dalam praktiknya, optimasi Bayesian terbukti[7][8][9][10] mencapai hasil yang lebih baik dengan evaluasi yang lebih sedikit dibandingkan pencarian kisi dan pencarian acak, berkat kemampuannya "menalar" kualitas eksperimen sebelum dijalankan.
Optimasi berbasis gradien
Dalam ranah algoritma pembelajaran tertentu, optimasi berbasis gradien memungkinkan penghitungan gradien terhadap hiperparameter. Dengan memanfaatkan gradien tersebut, optimasi hiperparameter dapat dilakukan melalui teknik penurunan gradien. Penerapan awal teknik ini berfokus pada jaringan saraf.[11] Kini, metode ini telah diperluas dan diadaptasi untuk berbagai model lain, seperti support-vector machine[12] dan regresi logistik.[13]
Pendekatan alternatif lainnya untuk memperoleh gradien terhadap hiperparameter adalah diferensiasi langkah-langkah algoritma optimasi iteratif menggunakan diferensiasi otomatis.[14][15][16] Penelitian terkini dalam bidang ini memanfaatkan teorema fungsi implisit untuk menghitung hipergradien dan mengusulkan pendekatan hampiran yang stabil untuk matriks Hessian invers. Metode ini mampu menangani jutaan hiperparameter dengan kebutuhan memori yang konstan.[17]
Dalam pendekatan yang berbeda,[18] sebuah hypernetwork dilatih untuk memperkirakan fungsi respons terbaik. Salah satu kelebihan metode ini adalah dapat juga menangani hiperparameter diskrit. Jaringan self-tuning (penyetelan mandiri)[19] menawarkan versi pendekatan ini yang efisien dalam penggunaan memori dengan memilih representasi hypernetwork yang ringkas. Baru-baru ini, Δ-STN [20] berhasil menyempurnakan metode ini lebih lanjut melalui reparametrisasi hypernetwork secara minimal, sehingga berdampak pada peningkatan kecepatan pelatihan. Δ-STN juga menghasilkan perkiraan yang lebih baik dari respons terbaik Jacobian dengan linierisasi jaringan terhadap bobot, sehingga menghilangkan efek nonlinier yang tidak perlu dari perubahan bobot yang besar.
Selain pendekatan hypernetwork, metode berbasis gradien juga dapat digunakan untuk mengoptimalkan hiperparameter diskrit melalui relaksasi parameter secara kontinu.[21] Metode ini telah banyak digunakan untuk optimasi hiperparameter arsitektur dalam pencarian arsitektur saraf .
Optimasi evolusioner merupakan metodologi optimasi global untuk fungsi noisyblack-box. Dalam konteks optimasi hiperparameter, optimasi evolusioner memanfaatkan algoritma evolusioner untuk menjelajahi ruang hiperparameter untuk suatu algoritma tertentu.[8] Proses optimasi hiperparameter evolusioner terinspirasi dari konsep evolusi biologis:
Membentuk populasi awal dari solusi acak, yaitu menghasilkan tupel hiperparameter secara acak, biasanya lebih dari 100
Evaluasi tupel hiperparameter dan peroleh fungsi kecocokannya (fitness function), misalnya, akurasi validasi silang 10 kali lipat dari algoritma pemelajaran mesin dengan hiperparameter tersebut
Beri peringkat tupel hiperparameter berdasarkan hasil nilai fungsi kecocokannya.
Ganti tupel hiperparameter yang berkinerja terburuk dengan tupel hiperparameter baru yang dihasilkan melalui persilangan dan mutasi
Ulangi langkah 2-4 hingga performa algoritma yang memuaskan tercapai atau performa algoritma tidak lagi meningkat
Optimasi evolusioner telah diterapkan dalam optimasi hiperparameter untuk algoritma pemelajaran mesin statistik,[8]pemelajaran mesin otomatis, jaringan saraf umum[22], dan pencarian arsitektur jaringan saraf dalam, serta pelatihan bobot dalam jaringan syaraf tiruan dalam.
Berbasis populasi
Pelatihan Berbasis Populasi (PBT) mempelajari nilai hiperparameter dan bobot jaringan. Banyak proses pemelajaran beroperasi secara independen, menggunakan hiperparameter yang berbeda. Seperti pada metode evolusi, model dengan kinerja buruk secara iteratif diganti dengan model yang mengadopsi nilai hiperparameter dan bobot yang dimodifikasi berdasarkan performa yang lebih baik. Pemanasan awal model pengganti ini merupakan pembeda utama antara PBT dan metode evolusi lainnya. Oleh karena itu, PBT memungkinkan hiperparameter untuk berevolusi dan menghilangkan kebutuhan penyetelan manual. Proses ini tidak membuat asumsi mengenai arsitektur model, fungsi kerugian, atau prosedur pelatihan.
PBT dan variannya merupakan metode adaptif yang dinamis dalam memperbaharui nilai hyperparameter selama proses pelatihan model. Ini berbeda dengan metode non-adaptif yang menerapkan penetapan nilai hyperparameter secara statis dan suboptimal sepanjang pelatihan.[23]
Berbasis pemberhentian awal
Suatu kelas algoritma optimasi hiperparameter berbasis penghentian awal dirancang khusus untuk ruang pencarian yang besar dengan hiperparameter kontinyu dan diskrit, terutama ketika biaya komputasi untuk mengevaluasi kinerja kumpulan hiperparameter tinggi. Irace menerapkan algoritma "iterated racing" yang memfokuskan pencarian pada konfigurasi paling menjanjikan, menggunakan uji statistik untuk membuang konfigurasi yang berkinerja buruk.[24][25] Algoritma optimasi hiperparameter berbasis penghentian awal lainnya adalah "successive halving" (SHA),[26] yang dimulai sebagai pencarian acak tetapi secara berkala memangkas model berkinerja rendah, sehingga memfokuskan sumber daya komputasi pada model yang lebih menjanjikan. "Asynchronous successive halving" (ASHA)[27]lebih lanjut meningkatkan profil pemanfaatan sumber daya SHA dengan menghilangkan kebutuhan untuk mengevaluasi dan memangkas model berkinerja rendah secara sinkron. Hyperband[28] adalah algoritma berbasis penghentian awal tingkat tinggi yang menerapkan SHA atau ASHA beberapa kali dengan berbagai tingkat keagresifan pemangkasan, agar lebih dapat diterapkan secara luas dan dengan lebih sedikit input yang diperlukan.
Setelah optimasi hiperparameter selesai, rangkaian hiperparameter tersebut biasanya dipasangkan dengan set data pelatihan dan dipilih berdasarkan kinerja generalisasi, atau skor, dari set validasi. Namun, prosedur ini rentan mengarah pada kelebihan penyesuaian (overfitting) hiperparameter terhadap set validasi, sehingga mengaburkan performa generalisasi sebenarnya. Akibatnya, skor kinerja generalisasi pada set validasi (yang dapat berupa beberapa set dalam validasi silang) tidak dapat diandalkan untuk secara bersamaan memperkirakan kinerja generalisasi model akhir. Untuk mencapai estimasi yang lebih akurat, evaluasi kinerja generalisasi harus dilakukan pada set yang independen (tidak memiliki irisan) dari set (atau set) yang digunakan untuk optimasi hiperparameter. Jika tidak, kinerja yang dilaporkan dapat terlalu optimis (terlalu tinggi). Penilaian set independen ini dapat dilakukan dengan menggunakan set pengujian kedua yang terpisah, atau melalui prosedur validasi silang bertingkat (nested cross-validation). Pendekatan validasi silang bertingkat memungkinkan estimasi kinerja generalisasi model yang lebih tak bias, dengan mempertimbangkan bias yang muncul akibat optimasi hiperparameter.
^Matthias Feurer and Frank Hutter. Hyperparameter optimization. In: AutoML: Methods, Systems, Challenges, pages 3–38.
^Claesen, Marc; Moor, Bart De (2015). "Hyperparameter Search in Machine Learning". MIC 2015: The XI Metaheuristics International Conference. 14: 1–5. arXiv:1502.02127.
^Ziyu, Wang; Frank, Hutter; Masrour, Zoghi; David, Matheson; Nando, de Feitas (2016). "Bayesian Optimization in a Billion Dimensions via Random Embeddings". Journal of Artificial Intelligence Research (dalam bahasa Inggris). 55: 361–387. arXiv:1301.1942. doi:10.1613/jair.4806.
^Shaban, A., Cheng, C. A., Hatch, N., & Boots, B. (2019, April). Truncated back-propagation for bilevel optimization. In The 22nd International Conference on Artificial Intelligence and Statistics (pp. 1723-1732). PMLR.
^Li, Ang; Spyra, Ola; Perel, Sagi; Dalibard, Valentin; Jaderberg, Max; Gu, Chenjie; Budden, David; Harley, Tim et al. (2019-02-05). "A Generalized Framework for Population Based Training". arΧiv:1902.01894 [cs.AI].
^López-Ibáñez, Manuel; Dubois-Lacoste, Jérémie; Pérez Cáceres, Leslie; Stützle, Thomas; Birattari, Mauro (2016). "The irace package: Iterated Racing for Automatic Algorithm Configuration". Operations Research Perspective. 3 (3): 43–58. doi:10.1016/j.orp.2016.09.002.
^Birattari, Mauro; Stützle, Thomas; Paquete, Luis; Varrentrapp, Klaus (2002). "A Racing Algorithm for Configuring Metaheuristics". Gecco 2002: 11–18.
^Jamieson, Kevin; Talwalkar, Ameet (2015-02-27). "Non-stochastic Best Arm Identification and Hyperparameter Optimization". arΧiv:1502.07943 [cs.LG].
^Li, Liam; Jamieson, Kevin; Rostamizadeh, Afshin; Gonina, Ekaterina; Hardt, Moritz; Recht, Benjamin; Talwalkar, Ameet (2020-03-16). "A System for Massively Parallel Hyperparameter Tuning". arΧiv:1810.05934v5 [cs.LG].
^Li, Lisha; Jamieson, Kevin; DeSalvo, Giulia; Rostamizadeh, Afshin; Talwalkar, Ameet (2020-03-16). "Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization". Journal of Machine Learning Research. 18: 1–52. arXiv:1603.06560.
^Diaz, Gonzalo; Fokoue, Achille; Nannicini, Giacomo; Samulowitz, Horst (2017). "An effective algorithm for hyperparameter optimization of neural networks". arΧiv:1705.08520 [cs.AI].
^Hazan, Elad; Klivans, Adam; Yuan, Yang (2017). "Hyperparameter Optimization: A Spectral Approach". arΧiv:1706.00764 [cs.LG].