LeNet

Arsitektur LeNet.

LeNet adalah sebuah struktur jaringan saraf konvolusional yang diusulkan oleh LeCun, dkk. pada tahun 1998.[1] Secara umum, LeNet mengacu pada LeNet-5 dan merupakan jaringan saraf konvolusional (CNN) sederhana. CNN merupakan bagian dari jaringan saraf umpan maju yang neuron-neuron buatannya dapat merespons sel-sel di sekitarnya dalam rentang cakupan tertentu dan bekerja dengan baik dalam pemrosesan gambar berskala besar.

Sejarah pengembangan

LeNet-5 adalah salah satu jaringan saraf konvolusional paling awal yang juga berperan dalam mempromosikan pengembangan pembelajaran mendalam. Sejak 1988, setelah penelitian bertahun-tahun dan banyak sekali percobaan, karya rintisan tersebut diberi nama LeNet-5.

Yann LeCun pada tahun 2018

Pada tahun 1989, untuk pertama kalinya, Yann LeCun, dkk. di Bell Labs mengimplementasikan algoritma perambatan mundur untuk aplikasi praktis. Mereka percaya bahwa kemampuan untuk mempelajari generalisasi jaringan dapat ditingkatkan secara signifikan dengan membatasi domain masalah. Ia menggabungkan jaringan saraf konvolusional yang telah dilatih dengan algoritma perambatan mundur untuk membaca angka tulisan tangan dan berhasil mengimplementasikan nomor kode pos tulisan tangan yang disediakan oleh Jawatan Pos AS. Prototipe inilah yang nantinya menjadi LeNet.[2] Pada tahun yang sama, LeCun menguraikan masalah pengenalan digit tulisan tangan kecil dalam artikel jurnal lain. Ia berhasil menunjukkan bahwa meskipun masalah tersebut dapat dipisahkan secara linear, jaringan lapisan tunggal memiliki kemampuan generalisasi yang buruk. Namun, ketika menggunakan pendeteksi fitur dengan invarian-geser (shift-invariant) pada jaringan multi-lapis berkendala (multi-layered, constrained network), model tersebut dapat memiliki performa yang sangat baik. Ia meyakini bahwa hasil ini membuktikan bahwa dengan meminimalkan jumlah parameter bebas dalam jaringan saraf dapat meningkatkan kemampuan generalisasinya.[3]

Pada tahun 1990, mereka kembali mempublikasikan makalah ilmiah yang menjelaskan penerapan jaringan perambatan mundur dalam pengenalan digit tulisan tangan. Pada makalah ini, mereka hanya melakukan sedikit pra-pemrosesan pada data dengan model yang dirancang secara cermat dan berkendala besar. Data masukan dalam bentuk citra berjumlah banyak yang masing-masing berisi satu digit angka. Hasil pengujian pada data digital kode pos yang disediakan oleh Jawatan Pos AS menunjukkan bahwa model tersebut memiliki tingkat kesalahan hanya sebesar 1% dan penolakan sekitar 9%.[4]

Setelah itu, penelitian mereka berlanjut untuk empat tahun berikutnya. Pada tahun 1994, kumpulan data MNIST berhasil dikembangkan. Namun, karena LeNet-1 sebelumnya terlalu kecil, LeNet-4 dikembangkan untuk dilatih pada data baru tersebut.[5] Setahun kemudian, kelompok AT&T Bell Labs memperkenalkan LeNet-5. Selain itu, mereka juga membandingkan berbagai metode pengenalan karakter tulisan tangan untuk mengidentifikasi berbagai tugas benchmark dandidapatkan bahwa jaringan terbaru mengungguli model-model lain.[6] Pada tahun 1998, Yann LeCun, Leon Bottou, Yoshua Bengio, dan Patrick Haffner memperkenalkan contoh aplikasi praktis jaringan saraf, seperti dua sistem untuk mengenali karakter tulisan tangan secara daring dan model yang dapat membaca jutaan cek per hari.[1]

Penelitian ini mencapai kesuksesan besar dan membangkitkan minat para akademisi dalam studi jaringan saraf. Meskipun arsitektur jaringan saraf terbaik saat ini tidak sama dengan LeNet, LeNet merupakan titik awal untuk sejumlah besar arsitektur jaringan saraf, dan juga menginspirasi penelitian di bidang tersebut.

Garis Waktu
tahun 1989 Yann LeCun dkk. mengusulkan bentuk asli LeNet LeCun Y., Boser B., Denker JS, Henderson D., Howard RE, Hubbard W. dan Jackel LD (1989). Backpropagation diterapkan pada pengenalan kode pos tulisan tangan. Komputasi Neural, 1(4):541-551. [2]
tahun 1989 Yann LeCun membuktikan bahwa meminimalkan jumlah parameter bebas dalam jaringan saraf dapat meningkatkan kemampuan generalisasi jaringan saraf. LeCun, Y. (1989). Strategi generalisasi dan desain jaringan. Laporan Teknis CRG-TR-89-4, Departemen Ilmu Komputer, Universitas Toronto. [3]
tahun 1990 Makalah mereka menjelaskan penerapan jaringan backpropagation dalam pengenalan digit tulisan tangan sekali lagi LeCun Y., Boser B., Denker JS, Henderson D., Howard RE, Hubbard W. dan Jackel LD (1990). Pengenalan digit tulisan tangan dengan jaringan propagasi balik. Kemajuan dalam Sistem Pemrosesan Informasi Neural 2 (NIPS*89). [4]
tahun 1994 Database MNIST dan LeNet-4 dikembangkan
tahun 1995 LeNet-5 dikembangkan, berbagai metode yang diterapkan pada pengenalan karakter tulisan tangan ditinjau dan dibandingkan dengan tolok ukur pengenalan digit tulisan tangan standar. Hasilnya menunjukkan bahwa jaringan saraf konvolusional mengungguli semua model lainnya.
tahun 1998 Aplikasi praktis LeCun, Y.; Bottou, L.; Bengio, Y. dan Haffner, P. (1998). Pembelajaran berbasis gradien diterapkan pada pengenalan dokumen. Prosiding IEEE. 86(11): 2278 - 2324. [1]

Struktur

Perbandingan lapisan konvolusi, pooling, dan lapisan rapat LeNet dan AlexNet)
(Ukuran citra AlexNet seharusnya 227×227×3, bukan 224×224×3, agar hasil perhitungannya benar. Makalah ilmiah aslinya menyebutkan angka yang berbeda, tetapi Andrej Karpathy, mantan kepala visi komputer di Tesla, mengatakan bahwa ukuran seharusnya 227×227×3 (dia mengatakan bahwa Alex tidak menjelaskan mengapa dia menggunakan 224×224×3). Konvolusi berikutnya seharusnya 11×11 dengan stride 4: 55×55×96 (bukan 54×54×96). Kemudian dihitung, misalnya, sebagai: [(lebar input 227 - lebar kernel 11) / stride 4] + 1 = [(227 - 11) / 4] + 1 = 55. Karena keluaran kernel memiliki panjang dan lebar yang sama, maka luasnya adalah 55×55.)


Sebagai perwakilan jaringan saraf konvolusional awal, LeNet memiliki unit-unit dasar jaringan saraf konvolusional, seperti lapisan konvolusional (convolutional layer), lapisan penggabungan (pooling layer), dan lapisan terhubung sepenuhnya (fully-connected layer) yang merupakan dasar bagi pengembangan jaringan saraf konvolusional di masa mendatang. LeNet-5 terdiri dari tujuh lapisan dengan citra masukan berukuran 32*32 piksel. Selain lapisan masukan, setiap lapisan lainnya dapat melatih parameter (seperti pada gambar). Cx merupakan representasi dari lapisan konvolusi, Sx merupakan representasi dari lapisan sub-sampling, Fx merupakan representasi dari lapisan koneksi lengkap, dan x merupakan representasi dari indeks lapisan.[2][7][8]

Lapisan C1 adalah lapisan konvolusi dengan enam kernel konvolusi berukuran 5x5, sementara peta fiturnya berukuran 28x28 yang dapat mencegah informasi citra masukan keluar dari batas kernel konvolusi.

Lapisan S2 adalah lapisan subsampling/pooling yang menghasilkan 6 grafik fitur berukuran 14x14. Setiap sel di setiap peta fitur terhubung ke ketetanggaan berukuran 2x2 di peta fitur yang sesuai di C1.

Lapisan C3 adalah lapisan konvolusi dengan 16 5-5 kernel konvolusi. Masukan dari enam peta fitur C3 pertama merupakan setiap subset berkesinambungan dari tiga peta fitur di S2, masukan dari enam peta fitur berikutnya berasal dari masukan dari empat subset berkesinambungan, dan masukan dari tiga peta fitur berikutnya berasal dari empat subset tidak berkesinambungan. Terakhir, masukan untuk grafik fitur terakhir berasal dari semua grafik fitur S2.

Lapisan S4 mirip dengan S2, dengan ukuran 2x2 dan keluaran 16 5x5 grafik fitur.

Lapisan C5 adalah lapisan konvolusi dengan 120 kernel konvolusi berukuran 5x5. Setiap sel terhubung ke lingkungan 5*5 pada semua 16 grafik fitur S4. Di sini, karena ukuran grafik fitur S4 juga 5x5, ukuran keluaran C5 adalah 1*1. Jadi S4 dan C5 terhubung sepenuhnya. C5 diberi label sebagai lapisan konvolusional dan bukan lapisan terhubung penuh, karena jika masukan LeNet-5 menjadi lebih besar dan strukturnya tetap tidak berubah, ukuran keluarannya akan lebih besar dari 1x1, yaitu bukan lapisan terhubung penuh.

Lapisan F6 adalah lapisan yang sepenuhnya terhubung ke C5 dan 84 adalah grafik fitur yang dikeluarkan.

Fitur

  • Setiap lapisan konvolusional mencakup tiga bagian: konvolusi, pooling, dan fungsi aktivasi nonlinier
  • Menggunakan konvolusi untuk mengekstraksi fitur spasial (Konvolusi awalnya disebut sebagai bidang reseptif)
  • Lapisan pengumpulan menggunakan rata-rata subsampling (average pooling layer)
  • fungsi aktivasi tanh
  • Menggunakan MLP sebagai pengklasifikasi terakhir
  • Koneksi jarang (sparse connection) antar lapisan untuk mengurangi kompleksitas komputasi

Aplikasi

Aplikasi LeNet yang paling klasik adalah untuk mengenali citra digit sederhana karena ia diciptakan karena itu.

Yann LeCun dkk. membuat bentuk awal LeNet pada tahun 1989. Makalah ilmiah berjudul Backpropagation Applied to Handwrittern Zip code Recognition [2] menunjukkan bagaimana kendala tersebut dapat diintegrasikan ke dalam jaringan perambatan mundur melalui arsitektur jaringan yang berhasil diterapkan pada pengenalan angka kode pos tulisan tangan yang disediakan oleh Jawatan Pos Amerika.[2]

Analisis pengembangan

LeNet-5 menunjukkan kebangkitan CNN dan mendefinisikan komponen dasar CNN.[1] Namun, saat itu belum populer karena keterbatasan perangkat keras, terutama GPU dan algoritma lain, seperti SVM yang dapat mencapai efek serupa atau bahkan melampaui LeNet.

Sejak keberhasilan AlexNet pada tahun 2012, CNN telah menjadi pilihan terbaik untuk aplikasi visi komputer dan berbagai jenis CNN telah dibuat, seperti seri R-CNN. Saat ini, model CNN sangat berbeda dari LeNet, tetapi semuanya dikembangkan berdasarkan LeNet.

Arsitektur pohon berlapis tiga yang meniru LeNet-5 dan hanya terdiri dari satu lapisan konvolusional, telah mencapai tingkat keberhasilan yang sama pada dataset CIFAR-10.[9]

Peningkatan jumlah filter untuk arsitektur LeNet menghasilkan peluruhan hukum daya pada tingkat kesalahan. Hasil ini menunjukkan bahwa jaringan dangkal dapat mencapai kinerja yang sama dengan arsitektur pemelajaran mendalam.[10]

Referensi

  1. ^ a b c d Lecun, Y.; Bottou, L.; Bengio, Y.; Haffner, P. (1998). "Gradient-based learning applied to document recognition" (PDF). Proceedings of the IEEE. 86 (11): 2278–2324. doi:10.1109/5.726791.  Kesalahan pengutipan: Tanda <ref> tidak sah; nama ":1" didefinisikan berulang dengan isi berbeda
  2. ^ a b c d e LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jackel, L. D. (December 1989). "Backpropagation Applied to Handwritten Zip Code Recognition". Neural Computation. 1 (4): 541–551. doi:10.1162/neco.1989.1.4.541. ISSN 0899-7667.  Kesalahan pengutipan: Tanda <ref> tidak sah; nama ":0" didefinisikan berulang dengan isi berbeda
  3. ^ a b Lecun, Yann (June 1989). "Generalization and network design strategies" (PDF). Technical Report CRG-TR-89-4. Department of Computer Science, University of Toronto.  Kesalahan pengutipan: Tanda <ref> tidak sah; nama ":2" didefinisikan berulang dengan isi berbeda
  4. ^ a b LeCun, Y.; Boser, B.; Denker, J. S.; Henderson, D.; Howard, R. E.; Hubbard, W.; Jacker, L. D. (June 1990). "Handwritten digit recognition with a back-propagation network" (PDF). Advances in Neural Information Processing Systems. 2: 396–404.  Kesalahan pengutipan: Tanda <ref> tidak sah; nama ":3" didefinisikan berulang dengan isi berbeda
  5. ^ http://yann.lecun.com/exdb/publis/pdf/bottou-94.pdf
  6. ^ https://www.eecis.udel.edu/~shatkay/Course/papers/NetworksAndCNNClasifiersIntroVapnik95.pdf
  7. ^ "卷积神经网络之LeNet - Brook_icv - 博客园". www.cnblogs.com (dalam bahasa Tionghoa). Diakses tanggal 2019-11-16. 
  8. ^ "深度学习 CNN 卷积神经网络 LeNet-5 详解". blog.csdn.net (dalam bahasa Tionghoa). Diakses tanggal 2019-11-16. 
  9. ^ Meir, Yuval; Ben-Noam, Itamar; Tzach, Yarden; Hodassman, Shiri; Kanter, Ido (2023-01-30). "Learning on tree architectures outperforms a convolutional feedforward network". Scientific Reports (dalam bahasa Inggris). 13 (1): 962. Bibcode:2023NatSR..13..962M. doi:10.1038/s41598-023-27986-6. ISSN 2045-2322. PMC 9886946alt=Dapat diakses gratis Periksa nilai |pmc= (bantuan). PMID 36717568 Periksa nilai |pmid= (bantuan). 
  10. ^ Meir, Yuval; Tevet, Ofek; Tzach, Yarden; Hodassman, Shiri; Gross, Ronit D.; Kanter, Ido (2023-04-20). "Efficient shallow learning as an alternative to deep learning". Scientific Reports (dalam bahasa Inggris). 13 (1): 5423. arXiv:2211.11106alt=Dapat diakses gratis. Bibcode:2023NatSR..13.5423M. doi:10.1038/s41598-023-32559-8. ISSN 2045-2322. PMC 10119101alt=Dapat diakses gratis Periksa nilai |pmc= (bantuan). PMID 37080998 Periksa nilai |pmid= (bantuan).