Boxplot (Visualisasi posisi & penyebaran)
📊 Boxplot (Diagram Kotak)
Boxplot adalah jenis visualisasi data yang digunakan untuk menggambarkan distribusi suatu dataset. Boxplot menunjukkan posisi, penyebaran, dan pencilan dalam dataset, dan sering digunakan untuk memberikan gambaran umum tentang sebaran data, serta mengidentifikasi outlier (pencilan) yang mungkin ada.
1. Komponen dalam Boxplot
Sebuah boxplot biasanya terdiri dari beberapa komponen penting:
Median (garis di dalam kotak): Menunjukkan nilai tengah atau rata-rata dataset. Ini adalah nilai yang memisahkan dataset menjadi dua bagian yang sama.
Q1 (Kuartil pertama): Merupakan batas bawah dari kotak dan menunjukkan nilai pada posisi 25% dari dataset yang terurut.
Q3 (Kuartil ketiga): Merupakan batas atas dari kotak dan menunjukkan nilai pada posisi 75% dari dataset yang terurut.
IQR (Interquartile Range): Merupakan rentang antara Q1 dan Q3, yang mengukur seberapa tersebar data di antara kuartil pertama dan ketiga. IQR = Q3 - Q1.
Whiskers (Garpu): Garis vertikal yang memanjang dari kotak, yang menunjukkan nilai minimum dan nilai maksimum yang masih dalam batas normal. Garpu ini mencakup data yang tidak dianggap sebagai outlier.
Outliers (Pencilan): Titik data yang terletak di luar jangkauan garpu (whiskers). Pencilan adalah nilai yang jauh dari rentang normal data dan sering kali disorot dengan titik atau simbol tertentu.
2. Langkah-langkah Membuat Boxplot
Berikut adalah langkah-langkah untuk memahami bagaimana boxplot dibentuk dari data:
Urutkan Data: Data diurutkan dari yang terkecil hingga terbesar.
Temukan Median: Median membagi data menjadi dua bagian yang sama. Jika jumlah data ganjil, median adalah nilai tengah; jika jumlah data genap, median adalah rata-rata dua nilai tengah.
Kuartil Q1 dan Q3: Kuartil pertama (Q1) adalah median dari separuh data yang lebih rendah, sedangkan kuartil ketiga (Q3) adalah median dari separuh data yang lebih tinggi.
Hitung IQR: IQR = Q3 - Q1. Rentang ini menggambarkan sebaran data antara kuartil pertama dan ketiga.
Tentukan Whiskers: Whiskers biasanya ditarik hingga nilai yang masih berada dalam batas normal, yang dihitung dengan rumus:
Batas bawah whisker = Q1 - 1.5 * IQR.
Batas atas whisker = Q3 + 1.5 * IQR.
Tentukan Outliers: Nilai yang berada di luar batas whiskers dianggap sebagai outliers atau pencilan.
3. Interpretasi Boxplot
Box: Menunjukkan 50% tengah dari data, yaitu dari Q1 ke Q3 (IQR). Ini menunjukkan distribusi pusat data.
Whiskers: Menunjukkan rentang data yang tidak dianggap sebagai outliers. Data yang terletak di luar whiskers dianggap pencilan.
Median: Titik tengah dari boxplot, memberikan gambaran umum mengenai nilai tengah dataset.
Outliers: Data yang terletak di luar whiskers menunjukkan titik yang tidak biasa, yang bisa menjadi nilai ekstrim atau kesalahan pengukuran.
4. Contoh Visualisasi Boxplot
Misalkan kita memiliki data pengukuran waktu respons dari 10 sistem:
[15, 18, 20, 21, 22, 24, 25, 28, 30, 35]Urutkan Data: [15, 18, 20, 21, 22, 24, 25, 28, 30, 35]
Median: 22 (nilai tengah dari data)
Q1: Median dari [15, 18, 20, 21, 22] adalah 20.
Q3: Median dari [24, 25, 28, 30, 35] adalah 28.
IQR: 28 - 20 = 8.
Whiskers:
Batas bawah whisker = Q1 - 1.5 * IQR = 20 - 1.5 * 8 = 4.
Batas atas whisker = Q3 + 1.5 * IQR = 28 + 1.5 * 8 = 44.
Outliers: Tidak ada data yang lebih kecil dari 4 atau lebih besar dari 44, sehingga tidak ada outliers.
Boxplot akan menggambarkan kotak dari 20 hingga 28, dengan whiskers yang memanjang hingga 15 (minimum) dan 35 (maksimum), dengan titik median di 22.
5. Keuntungan Menggunakan Boxplot
Mudah untuk Menilai Sebaran Data: Boxplot memberikan gambaran jelas tentang sebaran data dan posisi data di dalam distribusi.
Identifikasi Pencilan: Boxplot membantu dengan mudah mengidentifikasi outliers atau pencilan dalam data.
Komparasi Data Antar Kelompok: Boxplot memungkinkan kita membandingkan distribusi data dari beberapa kelompok secara visual, sangat berguna dalam analisis perbandingan antar kategori.
6. Contoh Kasus Penggunaan Boxplot
Misalkan kita memiliki data gaji dari dua departemen perusahaan, A dan B:
Departemen A: [20, 22, 25, 28, 30, 35, 40, 45, 50]
Departemen B: [15, 18, 22, 25, 27, 30, 40, 50, 55, 60]
Dengan boxplot, kita bisa langsung melihat:
Median: Untuk Departemen A, median berada lebih rendah daripada Departemen B.
Sebaran: Gaji di Departemen B lebih tersebar (lebih tinggi rentangnya) daripada di Departemen A.
Outliers: Boxplot dapat mengidentifikasi apakah ada gaji yang jauh lebih tinggi atau lebih rendah dari sebagian besar data dalam masing-masing departemen.
7. Kesimpulan
Boxplot adalah alat yang sangat berguna dalam visualisasi distribusi data, memungkinkan kita untuk dengan mudah melihat posisi pusat data, penyebaran data, serta pencilan atau outliers. Dengan menggunakan boxplot, kita dapat menggambarkan statistik yang penting seperti median, kuartil, dan rentang data secara ringkas namun jelas. Boxplot sangat bermanfaat dalam membandingkan distribusi antar kelompok dan memberi wawasan tentang variasi dalam dataset.
Last updated