Statistika komputasi

Statistika komputasi, atau Komputasi statistik (bahasa Inggris: Statistical computation/Computational statistics), adalah gabungan antara Ilmu Statistika dan Ilmu Komputer, yang mengacu pada metode statistik yang dijalankan dengan menggunakan metode komputasi. Ia merupakan bidang dari ilmu komputasi (atau komputasi ilmiah) yang spesifik mempelajari ilmu matematika statistik. Bidang ini juga berkembang pesat, yang mengarah pada seruan bahwa konsep komputasi yang lebih luas harus diajarkan sebagai bagian dari pendidikan statistik umum.^[1]

Walaupun sama dengan statistika tradisional yang bertujuan untuk mengubah data mentah menjadi pengetahuan (knowledge), ^[2], komputasi statistik berbeda dari segi fokusnya dalam metode statistik yang menggunakan komputer secara intensif, seperti kasus-kasus dengan Penentuan ukuran sampel yang sangat besar dan himpunan data yang tidak homogen.^[2]

Istilah 'statistika komputasi' dan 'komputasi statistik' sering digunakan secara bergantian. Walaupun demikian, Carlo Lauro (mantan presiden International Association for Statistical Computing) mengusulkan untuk membuat perbedaan, dengan mendefinisikan 'komputasi statistik' sebagai "penerapan ilmu komputer untuk statistik", dan 'statistika komputasi' sebagai "mengarah pada desain algoritma untuk mengimplementasikan metode statistik pada komputer, termasuk yang tidak terpikirkan sebelum era komputer (misalnya bootstrapping (statistika)|bootstrap]], simulasi), dan juga untuk mengatasi masalah-masalah yang tidak dapat dipecahkan secara analitis" [sic].^[3]

Istilah 'Statistika komputasi' juga dapat digunakan untuk merujuk pada metode statistika yang intensif secara komputasi, di dalamnya termasuk metode resampling (statistik), rantai Markov Monte Carlo, regresi lokal, estimasi densitas kernel, jaringan syaraf tiruan, dan model aditif tergeneralisasi.

Sejarah

Meskipun statistika komputasi digunakan secara luas saat ini, tetapi sebenarnya statistika komputasi memiliki sejarah yang relatif singkat dalam penerimaannya di komunitas statistika. Kebanyakannya, para perintis bidang ilmu statistika mengandalkan matematika dan pendekatan asimtotik dalam pengembangan metodologi statistika komputasi.^[4]

Dalam bidang statistik, penggunaan istilah "komputer" pertama kali muncul dalam sebuah artikel pada arsip Journal of the American Statistical Association yang ditulis oleh Robert P. Porter pada tahun 1891. Artikel tersebut membahas tentang penggunaan mesin Hermann Hollerith dalam sensus ke-11 Amerika Serikat.^{[butuh rujukan]} Mesin Hermann Hollerith, yang juga disebut mesin tabulasi; adalah sebuah mesin elektromekanis yang dirancang untuk membantu meringkas informasi yang tersimpan dalam Punched card. Mesin ini ditemukan oleh Herman Hollerith (29 Februari 1860 - 17 November 1929), seorang pengusaha, penemu, dan ahli statistik Amerika. Penemuannya tentang mesin tabulasi punched card kemudian dipatenkan pada tahun 1884, dan akhirnya digunakan pada sensus Amerika Serikat tahun 1890. Keuntungan dari teknologi ini segera terlihat. Sensus 1880, dengan jumlah penduduk sekitar 50 juta orang, membutuhkan waktu lebih dari 7 tahun untuk melakukan tabulasi. Sementara pada Sensus 1890, dengan lebih dari 62 juta orang, dibutuhkan waktu kurang dari satu tahun. Hal ini menandai dimulainya era statistik komputasi mekanis dan sistem pengolahan data semi otomatis.

Pada tahun 1908, William Sealy Gosset menyajikan Simulasi metode Monte Carlo yang sekarang menjadi terkenal. Penemuan ini kemudian berujung dengan ditemukannya Distribusi t Student.^[5] Dengan bantuan metode komputasi, ia juga memetakan distribusi empiris yang ditumpangkan di atas distribusi teoretis yang sesuai. Teknologi komputer kemudian berhasil merevolusi simulasi dan membuat replikasi eksperimen Gosset tidak lebih dari sekadar latihan.^[6]^[7]

Kemudian, para ilmuwan mengajukan cara komputasi untuk mendapatkan deviasi keacakan semu, menjalankan metode untuk mengubah deviasi seragam ke dalam bentuk distribusi lain menggunakan invers fungsi distribusi kumulatif atau metode penerimaan-penolakan, dan mengembangkan metodologi state-space untuk rantai Markov Monte Carlo.^[8] Salah satu upaya pertama untuk menghasilkan angka acak dengan cara yang sepenuhnya otomatis, dilakukan oleh RAND Corporation pada tahun 1947. Tabel buku bilangan acak yang dihasilkan diterbitkan sebagai buku Sejuta Angka Acak dengan 100.000 deviasi normal pada tahun 1955, dan juga sebagai serial punch card.

Pada pertengahan 1950-an, beberapa artikel dan paten untuk perangkat telah diusulkan untuk pembangkit bilangan acak ^[9] Pengembangan perangkat ini termotivasi dari kebutuhan untuk menggunakan bilangan acak untuk melakukan simulasi dan komponen fundamental lainnya dalam analisis statistik. Salah satu perangkat yang paling terkenal adalah ERNIE, yang menghasilkan angka acak dalam menentukan pemenang Premium Bond, sebuah obligasi lotere yang diterbitkan di Britania Raya. Pada tahun 1958, John Tukey mengembangkan Jackknife. Ini adalah metode untuk mengurangi bias estimasi parameter pada sampel di bawah kondisi yang tidak standar.

Metode

Maximum likelihood estimation

Maximum likelihood estimation digunakan dalam Teori estimasi untuk mengistimewasi parameter statistik dari distribusi probabilitas yang diasumsikan, dengan beberapa data yang diamati. Hal ini dapat tercapai dengan memaksimalkan sebuah fungsi likehood sehingga data yang teramati adalah yang paling mungkin di bawah model statistik yang diasumsikan.

Metode Monte Carlo

Monte Carlo adalah metode statistik yang bergantung pada pengambilan sampel acak berulang untuk mendapatkan hasil numerik. Konsepnya adalah menggunakan keacakan untuk memecahkan masalah yang mungkin bersifat sistem deterministik pada prinsipnya. Metode ini sering digunakan dalam masalah Fisika dan Matematika dan paling berguna ketika sulit untuk menggunakan pendekatan lain. Metode Monte Carlo terutama digunakan dalam tiga kelas masalah: optimasi, integrasi numerik, dan menghasilkan undian dari distribusi probabilitas.

Rantai Markov Monte Carlo

Metode Rantai Markov Monte Carlo menciptakan sampel dari variabel acak kontinu, dengan kerapatan probabilitas yang sebanding dengan fungsi yang diketahui. Sampel-sampel ini dapat digunakan untuk mengevaluasi sebuah integral dari variabel tersebut, sebagai nilai harapan atau varians. Semakin banyak langkah yang disertakan, semakin dekat distribusi sampel sesuai dengan distribusi yang diinginkan.

Aplikasi

Asosiasi

International Association for Statistical Computing

Lihat juga

Referensi

^ Nolan, D. & Temple Lang, D. (2010). "Computing in the Statistics Curricula", The American Statistician 64 (2), pp.97-107.
^ ^a ^b Wegman, Edward J. “Computational Statistics: A New Agenda for Statistical Theory and Practice.” Journal of the Washington Academy of Sciences, vol. 78, no. 4, 1988, pp. 310–322. JSTOR
^ Lauro, Carlo, "Statistika komputasi atau komputasi statistik, adakah itu pertanyaannya", Computational Statistics & Data Analysis, 23 (1)
^ Watnik, Mitchell (2011). .204b "Early Computational Statistics" Periksa nilai |url= (bantuan). Journal of Computational and Graphical Statistics (dalam bahasa Inggris). 20 (4): 811–817. doi:10.1198/jcgs.2011.204b. ISSN 1061-8600.
^ "Student" [William Sealy Gosset] (1908). "The probable error of a mean" (PDF). Biometrika. 6 (1). doi:10.1093/biomet/6.1.1. hdl:10338.dmlcz/143545. JSTOR 2331554.
^ Trahan, Travis John (2019-10-03). 2172/1569710 "Recent Advances in Monte Carlo Methods at Los Alamos National Laboratory" Periksa nilai |url= (bantuan). doi:10.2172/1569710. OSTI 1569710.
^ Metropolis, Nicholas; Ulam, S. (1949). 10483310 "The Monte Carlo Method" Periksa nilai |url= (bantuan). Journal of the American Statistical Association. 44 (247): 335–341. doi:10.1080/01621459.1949.10483310. ISSN 0162-1459. PMID 18139350.
^ Robert, Christian; Casella, George (2011-02-01). "A Short History of Markov Chain Monte Carlo: Subjective Recalls from Incomplete Data". Statistical Science. 26 (1). doi:10. 1214/10-sts351  Periksa nilai |doi= (bantuan). ISSN 0883-4237.
^ Pierre L'Ecuyer (2017). "History of uniform random number generation" (PDF). 2017 Winter Simulation Conference (WSC). hlm. 202–230. doi:10.1109/WSC.2017.8247790. ISBN 978-1-5386-3428-8.

Bacaan lanjutan

Artikel

Albert, J.H.; Gentle, J.E. (2004), Albert, James H; Gentle, James E, ed., "Special Section: Teaching Computational Statistics", The American Statistician, 58: 1, doi:10.1198/0003130042872
Wilkinson, Leland (2008), "The Future of Statistical Computing (with discussion)", Technometrics, 50 (4): 418–435, doi:10.1198/004017008000000460

Buku

Drew, John H.; Evans, Diane L.; Glen, Andrew G.; Lemis, Lawrence M. (2007), Computational Probability: Algorithms and Applications in the Mathematical Sciences, Springer International Series in Operations Research & Management Science, Springer, ISBN 978-0-387-74675-3
Gentle, James E. (2002), Elements of Computational Statistics, Springer, ISBN 0-387-95489-9
Gentle, James E.; Härdle, Wolfgang; Mori, Yuichi, ed. (2004), Handbook of Computational Statistics: Concepts and Methods, Springer, ISBN 3-540-40464-3
Givens, Geof H.; Hoeting, Jennifer A. (2005), Computational Statistics, Wiley Series in Probability and Statistics, Wiley-Interscience, ISBN 978-0-471-46124-1
Klemens, Ben (2008), Modeling with Data: Tools and Techniques for Statistical Computing, Princeton University Press, ISBN 978-0-691-13314-0
Monahan, John (2001), Numerical Methods of Statistics, Cambridge University Press, ISBN 978-0-521-79168-7
Rose, Colin; Smith, Murray D. (2002), Mathematical Statistics with Mathematica, Springer Texts in Statistics, Springer, ISBN 0-387-95234-9
Thisted, Ronald Aaron (1988), Elements of Statistical Computing: Numerical Computation, CRC Press, ISBN 0-412-01371-1
Gharieb, Reda. R. (2017), Data Science: Scientific and Statistical Computing, Noor Publishing, ISBN 978-3-330-97256-8

Pranala eksternal

Asosiasi

Jurnal

[1] Nolan, D. & Temple Lang, D. (2010). "Computing in the Statistics Curricula", The American Statistician 64 (2), pp.97-107.

[:0-2] Wegman, Edward J. “Computational Statistics: A New Agenda for Statistical Theory and Practice.” Journal of the Washington Academy of Sciences, vol. 78, no. 4, 1988, pp. 310–322. JSTOR

[3] Lauro, Carlo, "Statistika komputasi atau komputasi statistik, adakah itu pertanyaannya", Computational Statistics & Data Analysis, 23 (1)

[4] Watnik, Mitchell (2011). .204b "Early Computational Statistics" Periksa nilai |url= (bantuan). Journal of Computational and Graphical Statistics (dalam bahasa Inggris). 20 (4): 811–817. doi:10.1198/jcgs.2011.204b. ISSN 1061-8600.

[5] "Student" [William Sealy Gosset] (1908). "The probable error of a mean" (PDF). Biometrika. 6 (1). doi:10.1093/biomet/6.1.1. hdl:10338.dmlcz/143545. JSTOR 2331554.

[6] Trahan, Travis John (2019-10-03). 2172/1569710 "Recent Advances in Monte Carlo Methods at Los Alamos National Laboratory" Periksa nilai |url= (bantuan). doi:10.2172/1569710. OSTI 1569710.

[7] Metropolis, Nicholas; Ulam, S. (1949). 10483310 "The Monte Carlo Method" Periksa nilai |url= (bantuan). Journal of the American Statistical Association. 44 (247): 335–341. doi:10.1080/01621459.1949.10483310. ISSN 0162-1459. PMID 18139350.

[8] Robert, Christian; Casella, George (2011-02-01). "A Short History of Markov Chain Monte Carlo: Subjective Recalls from Incomplete Data". Statistical Science. 26 (1). doi:10. 1214/10-sts351  Periksa nilai |doi= (bantuan). ISSN 0883-4237.

[9] Pierre L'Ecuyer (2017). "History of uniform random number generation" (PDF). 2017 Winter Simulation Conference (WSC). hlm. 202–230. doi:10.1109/WSC.2017.8247790. ISBN 978-1-5386-3428-8.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]