LeNetLeNet adalah sebuah struktur jaringan saraf konvolusional yang diusulkan oleh LeCun, dkk. pada tahun 1998.[1] Secara umum, LeNet mengacu pada LeNet-5 dan merupakan jaringan saraf konvolusional (CNN) sederhana. CNN merupakan bagian dari jaringan saraf umpan maju yang neuron-neuron buatannya dapat merespons sel-sel di sekitarnya dalam rentang cakupan tertentu dan bekerja dengan baik dalam pemrosesan gambar berskala besar. Sejarah pengembanganLeNet-5 adalah salah satu jaringan saraf konvolusional paling awal yang juga berperan dalam mempromosikan pengembangan pembelajaran mendalam. Sejak 1988, setelah penelitian bertahun-tahun dan banyak sekali percobaan, karya rintisan tersebut diberi nama LeNet-5. Pada tahun 1989, untuk pertama kalinya, Yann LeCun, dkk. di Bell Labs mengimplementasikan algoritma perambatan mundur untuk aplikasi praktis. Mereka percaya bahwa kemampuan untuk mempelajari generalisasi jaringan dapat ditingkatkan secara signifikan dengan membatasi domain masalah. Ia menggabungkan jaringan saraf konvolusional yang telah dilatih dengan algoritma perambatan mundur untuk membaca angka tulisan tangan dan berhasil mengimplementasikan nomor kode pos tulisan tangan yang disediakan oleh Jawatan Pos AS. Prototipe inilah yang nantinya menjadi LeNet.[2] Pada tahun yang sama, LeCun menguraikan masalah pengenalan digit tulisan tangan kecil dalam artikel jurnal lain. Ia berhasil menunjukkan bahwa meskipun masalah tersebut dapat dipisahkan secara linear, jaringan lapisan tunggal memiliki kemampuan generalisasi yang buruk. Namun, ketika menggunakan pendeteksi fitur dengan invarian-geser (shift-invariant) pada jaringan multi-lapis berkendala (multi-layered, constrained network), model tersebut dapat memiliki performa yang sangat baik. Ia meyakini bahwa hasil ini membuktikan bahwa dengan meminimalkan jumlah parameter bebas dalam jaringan saraf dapat meningkatkan kemampuan generalisasinya.[3] Pada tahun 1990, mereka kembali mempublikasikan makalah ilmiah yang menjelaskan penerapan jaringan perambatan mundur dalam pengenalan digit tulisan tangan. Pada makalah ini, mereka hanya melakukan sedikit pra-pemrosesan pada data dengan model yang dirancang secara cermat dan berkendala besar. Data masukan dalam bentuk citra berjumlah banyak yang masing-masing berisi satu digit angka. Hasil pengujian pada data digital kode pos yang disediakan oleh Jawatan Pos AS menunjukkan bahwa model tersebut memiliki tingkat kesalahan hanya sebesar 1% dan penolakan sekitar 9%.[4] Setelah itu, penelitian mereka berlanjut untuk empat tahun berikutnya. Pada tahun 1994, kumpulan data MNIST berhasil dikembangkan. Namun, karena LeNet-1 sebelumnya terlalu kecil, LeNet-4 dikembangkan untuk dilatih pada data baru tersebut.[5] Setahun kemudian, kelompok AT&T Bell Labs memperkenalkan LeNet-5. Selain itu, mereka juga membandingkan berbagai metode pengenalan karakter tulisan tangan untuk mengidentifikasi berbagai tugas benchmark dandidapatkan bahwa jaringan terbaru mengungguli model-model lain.[6] Pada tahun 1998, Yann LeCun, Leon Bottou, Yoshua Bengio, dan Patrick Haffner memperkenalkan contoh aplikasi praktis jaringan saraf, seperti dua sistem untuk mengenali karakter tulisan tangan secara daring dan model yang dapat membaca jutaan cek per hari.[1] Penelitian ini mencapai kesuksesan besar dan membangkitkan minat para akademisi dalam studi jaringan saraf. Meskipun arsitektur jaringan saraf terbaik saat ini tidak sama dengan LeNet, LeNet merupakan titik awal untuk sejumlah besar arsitektur jaringan saraf, dan juga menginspirasi penelitian di bidang tersebut.
Struktur
Lapisan C1 adalah lapisan konvolusi dengan enam kernel konvolusi berukuran 5x5, sementara peta fiturnya berukuran 28x28 yang dapat mencegah informasi citra masukan keluar dari batas kernel konvolusi. Lapisan S2 adalah lapisan subsampling/pooling yang menghasilkan 6 grafik fitur berukuran 14x14. Setiap sel di setiap peta fitur terhubung ke ketetanggaan berukuran 2x2 di peta fitur yang sesuai di C1. Lapisan C3 adalah lapisan konvolusi dengan 16 5-5 kernel konvolusi. Masukan dari enam peta fitur C3 pertama merupakan setiap subset berkesinambungan dari tiga peta fitur di S2, masukan dari enam peta fitur berikutnya berasal dari masukan dari empat subset berkesinambungan, dan masukan dari tiga peta fitur berikutnya berasal dari empat subset tidak berkesinambungan. Terakhir, masukan untuk grafik fitur terakhir berasal dari semua grafik fitur S2. Lapisan S4 mirip dengan S2, dengan ukuran 2x2 dan keluaran 16 5x5 grafik fitur. Lapisan C5 adalah lapisan konvolusi dengan 120 kernel konvolusi berukuran 5x5. Setiap sel terhubung ke lingkungan 5*5 pada semua 16 grafik fitur S4. Di sini, karena ukuran grafik fitur S4 juga 5x5, ukuran keluaran C5 adalah 1*1. Jadi S4 dan C5 terhubung sepenuhnya. C5 diberi label sebagai lapisan konvolusional dan bukan lapisan terhubung penuh, karena jika masukan LeNet-5 menjadi lebih besar dan strukturnya tetap tidak berubah, ukuran keluarannya akan lebih besar dari 1x1, yaitu bukan lapisan terhubung penuh. Lapisan F6 adalah lapisan yang sepenuhnya terhubung ke C5 dan 84 adalah grafik fitur yang dikeluarkan. Fitur
AplikasiAplikasi LeNet yang paling klasik adalah untuk mengenali citra digit sederhana karena ia diciptakan karena itu. Yann LeCun dkk. membuat bentuk awal LeNet pada tahun 1989. Makalah ilmiah berjudul Backpropagation Applied to Handwrittern Zip code Recognition [2] menunjukkan bagaimana kendala tersebut dapat diintegrasikan ke dalam jaringan perambatan mundur melalui arsitektur jaringan yang berhasil diterapkan pada pengenalan angka kode pos tulisan tangan yang disediakan oleh Jawatan Pos Amerika.[2] Analisis pengembanganLeNet-5 menunjukkan kebangkitan CNN dan mendefinisikan komponen dasar CNN.[1] Namun, saat itu belum populer karena keterbatasan perangkat keras, terutama GPU dan algoritma lain, seperti SVM yang dapat mencapai efek serupa atau bahkan melampaui LeNet. Sejak keberhasilan AlexNet pada tahun 2012, CNN telah menjadi pilihan terbaik untuk aplikasi visi komputer dan berbagai jenis CNN telah dibuat, seperti seri R-CNN. Saat ini, model CNN sangat berbeda dari LeNet, tetapi semuanya dikembangkan berdasarkan LeNet. Arsitektur pohon berlapis tiga yang meniru LeNet-5 dan hanya terdiri dari satu lapisan konvolusional, telah mencapai tingkat keberhasilan yang sama pada dataset CIFAR-10.[9] Peningkatan jumlah filter untuk arsitektur LeNet menghasilkan peluruhan hukum daya pada tingkat kesalahan. Hasil ini menunjukkan bahwa jaringan dangkal dapat mencapai kinerja yang sama dengan arsitektur pemelajaran mendalam.[10] Referensi
|