Correlation Coefficient (Pearson, Spearman)

📊 Apa Itu Koefisien Korelasi?

Koefisien korelasi adalah ukuran statistik yang menunjukkan arah dan kekuatan hubungan antara dua variabel. Ada beberapa metode yang umum digunakan untuk menghitung korelasi, dan dua di antaranya yang paling sering digunakan adalah Pearson dan Spearman.

1. Koefisien Korelasi Pearson

  • Pearson's correlation coefficient mengukur hubungan linear antara dua variabel.

  • Nilai Pearson berkisar antara -1 hingga 1, dengan arti sebagai berikut:

    • +1: Korelasi positif sempurna (dua variabel bergerak bersama secara proporsional).

    • -1: Korelasi negatif sempurna (satu variabel bergerak berlawanan dengan variabel lainnya secara proporsional).

    • 0: Tidak ada korelasi linear.

Pearson digunakan ketika data memiliki hubungan linear dan normal. Artinya, distribusi data seharusnya berbentuk normal dan hubungan antara kedua variabelnya harus bersifat lurus.

Rumus Pearson:

r=n(Σxy)(Σx)(Σy)[nΣx2(Σx)2][nΣy2(Σy)2]r = \frac{n(\Sigma xy) - (\Sigma x)(\Sigma y)}{\sqrt{[n \Sigma x^2 - (\Sigma x)^2][n \Sigma y^2 - (\Sigma y)^2]}}

2. Koefisien Korelasi Spearman

  • Spearman's rank correlation coefficient digunakan untuk mengukur korelasi monotonik (tidak harus linear) antara dua variabel.

  • Nilai Spearman juga berkisar antara -1 hingga 1, namun tidak harus linear. Ini berarti bisa saja hubungan antara dua variabel meningkat atau menurun secara non-linear (misalnya, semakin tinggi nilai satu variabel, semakin tinggi juga nilai variabel lainnya, meskipun tidak dalam garis lurus).

Spearman cocok digunakan ketika data memiliki hubungan monotonik namun tidak harus berbentuk linear. Ini sering digunakan untuk data yang ordinal atau ketika hubungan antara variabel tidak dapat digambarkan dengan garis lurus.

Rumus Spearman:

ρ=16d2n(n21)\rho = 1 - \frac{6 \sum d^2}{n(n^2 - 1)}

Dimana dd adalah selisih peringkat masing-masing pasangan data, dan nn adalah jumlah data.


🔍 Perbedaan Utama: Pearson vs Spearman

Aspek

Pearson

Spearman

Jenis Hubungan

Linear

Monotonik (bisa non-linear)

Tipe Data

Data kontinu dan normal

Data ordinal, interval, atau ratio

Fungsi

Mengukur hubungan linear antara dua variabel

Mengukur hubungan monotonik antara dua variabel

Kepekaan terhadap Outlier

Sensitif terhadap outlier yang ekstrem

Tidak terlalu sensitif terhadap outlier


🧠 Contoh Kasus: Menghitung Korelasi Pearson dan Spearman

Misalkan kamu memiliki data tentang pendapatan dan pendidikan orang-orang. Jika data terdistribusi normal dan hubungan antara variabel tersebut linear, kamu bisa menggunakan Pearson untuk mengukur korelasi.

Jika data terdiri dari peringkat (misalnya, tingkat kepuasan yang diukur dengan skala 1-5), maka Spearman lebih cocok.


📈 Menghitung Korelasi di Python (Contoh)

Di Python, kita bisa menghitung kedua jenis korelasi ini menggunakan Pandas atau SciPy.

1. Koefisien Pearson:

import pandas as pd

# Data contoh
data = {'pendapatan': [3500, 4000, 5000, 4500, 3000],
        'pendidikan': [1, 2, 3, 2, 1]}
df = pd.DataFrame(data)

# Menghitung korelasi Pearson
pearson_corr = df['pendapatan'].corr(df['pendidikan'], method='pearson')
print("Korelasi Pearson:", pearson_corr)

2. Koefisien Spearman:

# Menghitung korelasi Spearman
spearman_corr = df['pendapatan'].corr(df['pendidikan'], method='spearman')
print("Korelasi Spearman:", spearman_corr)

✅ Kesimpulan

  • Pearson digunakan untuk mengukur hubungan linear antar variabel, terutama jika datanya bersifat normal dan kontinu.

  • Spearman digunakan untuk hubungan monotonik antar variabel, sangat berguna saat data berbentuk ordinal atau ketika hubungan tidak linier.

Pemilihan antara Pearson dan Spearman sangat bergantung pada jenis data dan jenis hubungan yang ingin kamu ukur.

Last updated