Cara Menemukan Outlier dengan Python

Dalam data analytics, istilah "outlier" pasti sudah tidak asing didengar.

Outlier adalah data yang menonjol atau berbeda jauh dari sebagian besar data dalam kumpulan data. Bayangkan kamu sedang mengamati penjualan dalam satu tahun, dan ada satu bulan dengan penjualan yang sangat berbeda dari bulan lain, satu bulan itu bisa dianggap sebagai outlier.

Sering kali, outlier ini bukan sekadar angka yang “tersesat”, melainkan bisa menjadi penanda adanya kesalahan dalam pengumpulan data, atau bahkan, dalam beberapa kasus, menunjukkan informasi baru yang belum pernah terpikirkan sebelumnya.

Mengapa penting untuk mengetahui tentang outlier? Karena pada dasarnya keberadaan outlier dapat memengaruhi hasil analisis statistik, seperti rata-rata dan standar deviasi, sehingga bisa mengarah pada kesimpulan yang salah.

Artikel ini akan membawamu menjelajahi berbagai metode deteksi outlier dalam Python, mengupas tuntas bagaimana masing-masing metode bekerja, dan kapan sebaiknya metode tersebut digunakan. Selamat membaca!

Mengapa Penting Mendeteksi Outlier?

Berikut beberapa poin mengenai pentingnya mendeteksi outlier dalam analisis data:

Meningkatkan akurasi analisis: outlier dapat menyebabkan perhitungan statistik seperti rata-rata, median, dan standar deviasi menjadi tidak akurat. Dengan mendeteksi dan mengelola outlier, data analyst menjadi lebih representatif terhadap kumpulan data yang sebenarnya.
Data purification: mendeteksi outlier membantu dalam proses pemurnian data, memastikan analisis dilakukan hanya pada data yang relevan dan mengurangi distorsi yang disebabkan oleh nilai ekstrim.
Pengambilan keputusan yang lebih baik: dalam bisnis dan penelitian, keputusan perlu diambil berdasarkan data. Deteksi outlier memastikan keputusan tersebut didasarkan pada data yang akurat, meningkatkan keandalan hasil analisis.
Mengidentifikasi kesalahan dalam pengumpulan data: outlier bisa jadi merupakan indikasi adanya kesalahan dalam pengumpulan atau pengolahan data. Mendeteksi outlier membantumu mengidentifikasi dan memperbaiki kesalahan tersebut.
Memberikan informasi tentang distribusi data: analisis outlier memberikan informasi tentang distribusi data. Ini penting untuk memahami apakah data mengikuti distribusi yang diharapkan atau ada penyimpangan yang perlu diteliti lebih lanjut.
Mendeteksi kecurangan: dalam beberapa kasus, seperti keuangan atau transaksi online, outlier bisa menunjukkan adanya kecurangan. Deteksi outlier menjadi alat penting untuk mengidentifikasi aktivitas mencurigakan.

Metode-metode untuk Mendeteksi Outlier

Berikut beberapa metode untuk mendeteksi outlier:

#1 Box plot

Box plot adalah alat visualisasi statistik yang efektif untuk mengidentifikasi outlier.

Dengan membagi data menjadi kuartil, box plot menampilkan rentang interkuartil (IQR) sebagai "kotak" dan data di luar 1.5 IQR dari kuartil atas atau bawah sebagai outlier. Titik-titik yang berada di luar "whisker” ini dianggap berbeda secara signifikan dari distribusi data utama, memudahkan identifikasi visual outlier.

#2 Z-Score

Z-Score merupakan metode yang mengukur seberapa jauh sebuah nilai data dari mean (rata-rata) dalam satuan standar deviasi. Nilai data yang memiliki Z-Score lebih dari 3 atau kurang dari -3 biasanya dianggap sebagai outlier.

Metode ini efektif untuk dataset dengan distribusi yang mendekati normal dan memungkinkan deteksi outlier yang berada jauh dari kelompok data utama.

#3 IQR (interquartile range)

IQR mengukur rentang antara kuartil pertama (25%) dan kuartil ketiga (75%) dalam sebuah dataset. Outlier diidentifikasi sebagai nilai yang berada di luar 1.5 kali IQR dari batas kuartil atas dan bawah. Metode ini sering dipakai untuk data yang tidak berdistribusi normal.

#4 Scatter plot

Scatter plot adalah metode visualisasi data yang memplot nilai variabel satu terhadap variabel lain, membantu pengidentifikasian outlier sebagai poin yang tidak mengikuti pola distribusi mayoritas data.

Scatter plot sangat berguna untuk analisis data dua dimensi dan membantu dalam mengidentifikasi hubungan antar variabel serta keberadaan outlier.

#5 Isolation Forest

Isolation Forest adalah algoritma yang berbasis pada pemisahan poin data secara acak. Algoritma ini efektif dalam mendeteksi outlier karena outlier cenderung lebih mudah diisolasi dari sampel data normal. Metode ini cocok untuk dataset besar dan dapat menangani data multidimensi dengan baik.

#6 Local Outlier Factor (LOF)

Local Outlier Factor mengukur deviasi kepadatan lokal sebuah poin dengan sekitarnya, dengan asumsi outlier akan memiliki kepadatan berbeda. LOF efektif untuk mendeteksi outlier dalam dataset yang memiliki distribusi kepadatan bervariasi, memungkinkan identifikasi outlier yang berada dekat dengan cluster data normal.

Cara Mendeteksi Outlier dengan Python

Untuk mendeteksi outlier dengan Python, kita dapat menggunakan beberapa pendekatan matematis:

Menggunakan Z-Score

Z-Score adalah metode statistik yang mengukur jumlah standar deviasi sebuah nilai data dari mean (rata-rata) dataset. Rumus untuk menghitung Z-Score adalah:

Di mana:

X adalah nilai data,
μ adalah mean dari dataset,
σ adalah standar deviasi dari dataset.

Nilai data dianggap sebagai outlier jika Z-Score-nya lebih besar dari 3 atau kurang dari -3, menunjukkan data tersebut berada jauh dari rata-rata dataset.

Menggunakan IQR (Interquartile Range)

IQR mengukur variasi dalam dataset dengan menghilangkan pengaruh potensial dari outlier. Rumus untuk menghitung IQR adalah:

IQR=Q3−Q1

Di mana:

Q1 adalah kuartil pertama (25%),
Q3 adalah kuartil ketiga (75%).

Setelah mendapatkan IQR, kita dapat menghitung batas bawah dan batas atas untuk outlier sebagai berikut:

Batas bawah = Q1 − 1.5 × IQR

Batas atas = Q3 + 1.5 × IQR

Nilai data yang berada di luar batas ini dianggap sebagai outlier.

FAQ (Frequently Ask Question)

Bagaimana cara menangani outlier setelah deteksi?

Setelah mendeteksi outlier, ada beberapa cara untuk menanganinya, termasuk:

Menghapus outlier: menghapus baris data yang mengandung outlier jika jumlahnya tidak signifikan terhadap keseluruhan data.
Cap (penggantian nilai): mengganti nilai outlier dengan nilai maksimum atau minimum dari range data yang tidak termasuk outlier.
Transformasi data: menggunakan transformasi logaritmik atau metode lain untuk mengurangi dampak outlier.
Imputasi: mengganti outlier dengan nilai median, mean, atau modus dari dataset.

Apakah selalu perlu menghapus outlier dari dataset?

Tidak, tidak selalu tepat untuk menghapus outlier dari dataset. Keputusan untuk menghapus atau mempertahankan outlier bergantung pada konteks data dan tujuan analisis yang dilakukan.

Berikut beberapa pertimbangan yang perlu diperhatikan:

Konteks data: jika outlier mewakili kesalahan pengumpulan data atau entri data yang salah, tepat untuk menghapusnya. Namun, jika outlier merupakan bagian dari variabilitas alami data atau menunjukkan kejadian yang signifikan (seperti penemuan baru atau peristiwa langka), sebaiknya outlier tersebut dipertahankan.
Tujuan analisis: dalam beberapa analisis, seperti deteksi penipuan atau kejadian langka, outlier justru merupakan data yang paling penting. Dalam kasus seperti ini, menghapus outlier bisa menghilangkan informasi berharga dari analisis.
Dampak terhadap model: dalam machine learning, outlier dapat memengaruhi performa model. Dalam beberapa kasus, menghapus outlier dapat meningkatkan akurasi model, tetapi dalam kasus lain, keberadaan outlier mungkin penting untuk menjaga model agar tidak overfitting terhadap data "normal".
Analisis lebih lanjut: sebelum memutuskan untuk menghapus outlier, penting untuk melakukan analisis lebih lanjut agar memahami penyebab dan dampaknya terhadap dataset. Terkadang, transformasi data atau metode analisis berbeda dapat digunakan untuk mengakomodasi outlier tanpa perlu menghapusnya.

Bagaimana memilih metode deteksi outlier yang tepat?

Memilih metode deteksi outlier yang tepat memerlukan pertimbangan terhadap beberapa faktor utama, yaitu:

Sifat data

Pemilihan metode sangat bergantung pada distribusi dan dimensi data. Untuk data dengan distribusi normal, metode statistik seperti Z-score bisa efektif, sedangkan untuk data yang tidak berdistribusi normal, metode seperti IQR lebih tepat. Untuk data univariat, metode sederhana seperti Z-score dan IQR cukup, namun untuk data multivariat, metode yang mempertimbangkan hubungan antar variabel seperti DBSCAN atau Isolation Forest lebih tepat.

Tujuan analisis

Tujuan analisis menentukan pilihan metode. Untuk pemahaman data, visualisasi seperti box plot dan scatter plot sangat membantu. Sementara itu, untuk pemodelan prediktif atau deteksi anomali, metode otomatis seperti Isolation Forest atau DBSCAN lebih cocok karena kemampuannya mengidentifikasi outlier secara efisien.

Ukuran dan kompleksitas dataset

Dataset besar dan kompleks memerlukan metode yang efisien dan mampu menangani dimensi tinggi. Algoritma berbasis machine learning seperti Isolation Forest cocok untuk dataset besar, sedangkan metode berbasis clustering seperti DBSCAN dapat diterapkan untuk data dengan kompleksitas tinggi.

Ketersediaan tools dan library

Ketersediaan dan kemudahan penggunaan library Python seperti Scikit-learn, NumPy, dan Pandas juga memengaruhi pilihan metode. Library ini menyediakan implementasi berbagai metode deteksi outlier yang dapat memudahkan proses analisis.

Pertimbangan domain spesifik

Pengetahuan tentang domain subjek penting dalam memilih metode. Dalam beberapa kasus, kebutuhan spesifik domain, seperti deteksi penipuan di keuangan, kemungkinan memerlukan metode deteksi outlier khusus.