Dalam statistika deskriptif, diagram kotak garis atau boxplot adalah metode grafis untuk menggambarkan kumpulan data numerik berdasarkan nilai kuartilnya.[1] Diagram kotak garis bersifat nonparametrik, artinya diagram ini menampilkan variasi sampel populasi statistik tanpa membuat asumsi apa pun tentang distribusi statistik yang mendasarinya. Jarak antara bagian-bagian kotak yang berbeda menunjukkan derajat dispersi (sebaran), kemiringan, dan pencilan dari data tersebut. Diagram kotak garis dapat digambarkan secara horizontal maupun vertikal.
Elemen diagram kotak garis
Diagram kotak garis merupakan salah satu cara sederhana untuk menampilkan kumpulan data berdasarkan ringkasan lima angka dari data tersebut. Ringkasan lima angka yang dimaksud yakni:
Minimum : nilai terendah dari kumpulan data, tidak termasuk pencilan.
Maksimum : nilai terbesar dari kumpulan data, tidak termasuk pencilan.
Median (Q2 / persentil ke-50): nilai tengah kumpulan data.
Kuartil pertama (Q1 / persentil ke-25): juga dikenal sebagai kuartil bawahqn(0.25), adalah median dari bagian bawah kumpulan data.
Kuartil ketiga (Q3 / persentil ke-75): juga dikenal sebagai kuartilqn(0.75), adalah median dari bagian atas kumpulan data.[2]
Elemen penting lain dalam pembuatan diagram kotak garis adalah jangkauan interkuartil (Interquartile range, IQR). Jangkauan interkuartil adalah jarak antara kuartil atas dan bawah, dinotasikan sebagai:
Diagram kotak garis terdiri atas dua bagian, yakni sebuah kotak dan satu pasang garis (seperti pada Gambar 2). Titik terendah dalam diagram merupakan nilai minimum dari dataset, sementara titik tertingginya merupakan nilai maksimum dari dataset. Sebuah kotak digambar dari Q1 ke Q3 kemudian garis horizontal digambar di tengahnya untuk menunjukkan median.
kumpulan data yang sama juga dapat direpresentasikan sebagai diagram kotak garis seperti yang ditunjukkan pada Gambar 3. Pertama, lakukan pengukuran sejauh 1,5 kali IQR dari kuartil atas. Kemudian sebuah garis ditarik dari kuartil atas menuju nilai terbesar dalam dataset yang berada dalam jarak 1,5 kali IQR. Hal yang sama juga dilakukan pada bagian bawah. Sebuah garis ditarik dari kuartil bawah menuju nilai terkecil dalam dataset yang berada dalam jarak 1,5 kali IQR, diukur dari bawah kuartil bawah. Semua titik lainnya dianggap sebagai pencilan.[3]
Meskipun demikian, garis dalam diagram ini dapat mewakili beberapa kemungkinan nilai lainnya, seperti:
minimum dan maksimum dari semua data (seperti pada gambar 2)
Data apapun yang tidak termasuk dalam garis harus diplot sebagai pencilan dengan simbol titik, lingkaran kecil, atau bintang, meskipun terkadang hal ini tidak dilakukan. Selain itu, beberapa diagram kotak turut menyertakan simbol tambahan untuk menunjukkan nilai rata-rata data.[4][5]
Variasi
Diagram ini telah memiliki banyak variasi sejak dipopulerkan oleh matematikawan John W. Tukey pada tahun 1969. Dua varian paling umum adalah diagram kotak lebar variabel dan plot kotak berlekuk (lihat Gambar 4).
Plot kotak lebar variabel menggambarkan ukuran setiap grup yang datanya sedang diplot dengan membuat lebar kotak proporsional dengan ukuran grup. Konvensi yang populer adalah membuat lebar kotak proporsional dengan akar kuadrat dari ukuran grup.[6]
Contoh
Contoh diagram kotak garis tanpa pencilan
Temperatur udara di suatu tempat diukur tiap jam dalam satuan Fahrenheit. Temperatur yang terukur kemudian disajikan dalam urutan data: 50, 50, 55, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 81.
Sebuah diagram kotak garis kemudian dibuat menggunakan patokan nilai minimum, maksimum, median, kuartil pertama, dan kuartil ketiga dari data temperatur tersebut.
Pada kasus ini, temperatur minimum hari itu adalah 50 °F, maksimum 81 °F, dan median temperatur 70 °F. Kuartil pertama / kuartil bawah data adalah 66 °F, yang mana merupakan nilai tengah antara 50 °F (nilai minimum) dan 70 °F (median). Nilai kuartil ketiga / kuartil atas data temperatur adalah 75 °F, yang mana merupakan nilai tengah antara 70 °F (median) dan 81 °F (maksimum).
Jangkauan interkuartil, atau IQR, kemudian dapat dihitung:
Oleh karena itu, didapatkan bahwa
1.5 IQR di atas kuartil ketiga adalah:
Sementara 1.5IQR di bawah kuartil pertama adalah:
Garis bagian atas dari diagram kotak garis memanjang dari kuartil ketiga hingga nilai data terbesar yang lebih kecil dari 1.5IQR di atas kuartil ketiga. Pada persoalan ini, 1,5IQR di atas kuartil ketiga adalah 88,5 °F dan nilai maksimum yang berada dalam rentang tersebut adalah 81 °F. Oleh karena itu, garis bagian atas digambar dari kuartil ketiga hingga 81 °F.
Serupa dengan garis bagian atas, garis bagian bawah dari diagram kotak garis memanjang dari kuartil pertama hingga nilai data terkecil yang lebih besar dari 1.5IQR di bawah kuartil pertama. Pada persoalan ini, 1,5IQR di bawah kuartil pertama adalah 52,5 °F dan nilai minimum yang memenuhi adalah 55 °F. Dengan demikian, garis bagian bawah digambar dari kuartil pertama hingga 55 °F.
Contoh dengan pencilan
Pada contoh ini, diberikan kumpulan data terurut: 52, 57, 57, 58, 63, 66, 66, 67, 67, 68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 89. Nilai median, kuartil pertama, dan kuartil ketiga sama dengan contoh sebelumnya. Sementara itu, ditambahkan data tambahan pada awal dan akhir sehingga nilai minimum dan maksimumnya berubah menjadi 52 dan 89 berturut-turut.
Pada persoalan ini, nilai maksimum kumpulan data adalah 89 °F, sementara 1.5IQR di atas kuartil ketiga adalah 88,5 °F. Karena nilai maksimum lebih besar daripada kuartil ketiga ditambah 1.5IQR, maka nilai maksimum merupakan pencilan. Oleh karena itu, garis bagian atas digambar hingga nilai terbesar yang lebih kecil dari 1,5IQR di atas kuartil ketiga, yaitu 79 °F.
Hal yang serupa juga berlaku pada bagian bawah. Nilai minimum kumpulan data ini adalah 52 °F, sementara 1.5IQR di bawah kuartil pertama adalah 52.5 °F. Karena nilai minimum lebih kecil daripada 1.5IQR dikurangi kuartil pertama, maka minimum juga merupakan pencilan. Oleh karena itu, garis bawah digambar pada nilai terkecil yang lebih besar dari 1,5IQR di bawah kuartil pertama, yaitu 57 °F.
Dalam kasus kumpulan data besar
Persamaan umum untuk menghitung kuantil empiris
Contoh data di atas merupakan kumpulan data dengan 24 titik data, artinya n = 24. Anda juga dapat menghitung median, kuartil pertama, dan kuartil ketiga secara matematis:
Median :
Kuartil pertama :
Kuartil ketiga :
Visualisasi
Diagram kotak garis memungkinkan pemeriksaan grafis yang cepat dari satu atau lebih kumpulan data. Diagram kotak garis mungkin tampak lebih primitif daripada histogram atau perkiraan kerapatan kernel. Meskipun demikian, diagram ini membutuhkan lebih sedikit ruang sehingga sangat berguna untuk membandingkan distribusi antara beberapa kelompok atau kumpulan data (lihat Gambar 1 sebagai contoh). Pemilihan teknik jumlah dan lebar batang dapat sangat memengaruhi tampilan histogram, sementara pilihan lebar pita dapat sangat memengaruhi tampilan perkiraan kepadatan kernel.
Salah satu cara untuk memahami diagram kotak garis adalah membandingkannya dengan fungsi kepadatan probabilitas (histogram teoritis) untuk distribusi normal N (0,σ2). Hal ini karena distribusi statistik lebih umum ditemukan daripada diagram kotak (Gambar 7).
^Mason, Robert D.; Lind, Douglas A. Teknik Statistika untuk BISNIS & EKONOMI. Diterjemahkan oleh Sitompul, Ellen Gunawan. Jakarta: Penerbit Erlangga. hlm. 148–150. ISBN979-411-387-5.Parameter |url-status= yang tidak diketahui akan diabaikan (bantuan)
^Marmolejo-Ramos, F.; Tian, S. (2010). "The shifting boxplot. A boxplot based on essential summary statistics around the mean". International Journal of Psychological Research. 3 (1): 37–46. doi:10.21500/20112084.823.