Correlation Coefficient (Pearson, Spearman)
📊 Apa Itu Koefisien Korelasi?
Koefisien korelasi adalah ukuran statistik yang menunjukkan arah dan kekuatan hubungan antara dua variabel. Ada beberapa metode yang umum digunakan untuk menghitung korelasi, dan dua di antaranya yang paling sering digunakan adalah Pearson dan Spearman.
1. Koefisien Korelasi Pearson
Pearson's correlation coefficient mengukur hubungan linear antara dua variabel.
Nilai Pearson berkisar antara -1 hingga 1, dengan arti sebagai berikut:
+1: Korelasi positif sempurna (dua variabel bergerak bersama secara proporsional).
-1: Korelasi negatif sempurna (satu variabel bergerak berlawanan dengan variabel lainnya secara proporsional).
0: Tidak ada korelasi linear.
Pearson digunakan ketika data memiliki hubungan linear dan normal. Artinya, distribusi data seharusnya berbentuk normal dan hubungan antara kedua variabelnya harus bersifat lurus.
Rumus Pearson:
2. Koefisien Korelasi Spearman
Spearman's rank correlation coefficient digunakan untuk mengukur korelasi monotonik (tidak harus linear) antara dua variabel.
Nilai Spearman juga berkisar antara -1 hingga 1, namun tidak harus linear. Ini berarti bisa saja hubungan antara dua variabel meningkat atau menurun secara non-linear (misalnya, semakin tinggi nilai satu variabel, semakin tinggi juga nilai variabel lainnya, meskipun tidak dalam garis lurus).
Spearman cocok digunakan ketika data memiliki hubungan monotonik namun tidak harus berbentuk linear. Ini sering digunakan untuk data yang ordinal atau ketika hubungan antara variabel tidak dapat digambarkan dengan garis lurus.
Rumus Spearman:
Dimana dd adalah selisih peringkat masing-masing pasangan data, dan nn adalah jumlah data.
🔍 Perbedaan Utama: Pearson vs Spearman
Aspek
Pearson
Spearman
Jenis Hubungan
Linear
Monotonik (bisa non-linear)
Tipe Data
Data kontinu dan normal
Data ordinal, interval, atau ratio
Fungsi
Mengukur hubungan linear antara dua variabel
Mengukur hubungan monotonik antara dua variabel
Kepekaan terhadap Outlier
Sensitif terhadap outlier yang ekstrem
Tidak terlalu sensitif terhadap outlier
🧠 Contoh Kasus: Menghitung Korelasi Pearson dan Spearman
Misalkan kamu memiliki data tentang pendapatan dan pendidikan orang-orang. Jika data terdistribusi normal dan hubungan antara variabel tersebut linear, kamu bisa menggunakan Pearson untuk mengukur korelasi.
Jika data terdiri dari peringkat (misalnya, tingkat kepuasan yang diukur dengan skala 1-5), maka Spearman lebih cocok.
📈 Menghitung Korelasi di Python (Contoh)
Di Python, kita bisa menghitung kedua jenis korelasi ini menggunakan Pandas atau SciPy.
1. Koefisien Pearson:
import pandas as pd
# Data contoh
data = {'pendapatan': [3500, 4000, 5000, 4500, 3000],
'pendidikan': [1, 2, 3, 2, 1]}
df = pd.DataFrame(data)
# Menghitung korelasi Pearson
pearson_corr = df['pendapatan'].corr(df['pendidikan'], method='pearson')
print("Korelasi Pearson:", pearson_corr)2. Koefisien Spearman:
# Menghitung korelasi Spearman
spearman_corr = df['pendapatan'].corr(df['pendidikan'], method='spearman')
print("Korelasi Spearman:", spearman_corr)✅ Kesimpulan
Pearson digunakan untuk mengukur hubungan linear antar variabel, terutama jika datanya bersifat normal dan kontinu.
Spearman digunakan untuk hubungan monotonik antar variabel, sangat berguna saat data berbentuk ordinal atau ketika hubungan tidak linier.
Pemilihan antara Pearson dan Spearman sangat bergantung pada jenis data dan jenis hubungan yang ingin kamu ukur.
Last updated