Apa itu Outlier?
Outlier adalah nilai yang jauh berbeda dari nilai lainnya dalam kumpulan data. Nilai ini muncul sebagai pengecualian dalam pola data yang ada.
Nilai yang ada di outlier bisa jauh lebih tinggi maupun lebih rendah dibandingkan dengan nilai-nilai lain dalam dataset. Outlier bisa terjadi karena berbagai alasan, termasuk kesalahan pengukuran, kejadian langka, atau karena faktor lain yang tidak terduga.
Sebagai contoh, bisnis memiliki data penjualan toko sepatu selama satu bulan. Di satu hari tertentu, penjualannya mencapai angka yang jauh lebih tinggi dari hari-hari sebelumnya. Data di hari tersebut bisa dianggap sebagai outlier.
Mengapa Penting untuk Mendeteksi Outlier?
Mendeteksi outlier merupakan langkah penting dalam analisis data karena outlier memiliki dampak signifikan terhadap hasil analisis dan berpotensi menghasilkan kesimpulan yang tidak akurat.
Berikut beberapa alasan lain di balik pentingnya mendeteksi outlier:
Menghindari distorsi analisis
Outlier dapat menyebabkan hasil analisis statistik dan model prediksi menyimpang. Jika outlier tidak diidentifikasi dan diatasi, pola umum dalam data tersebut akan berubah dan menghasilkan kesimpulan yang tidak tepat.
Contohnya, salah satu faktor untuk menentukan harga produk/layanan adalah gaji target pelanggan. Suatu bisnis sudah memiliki data tentang gaji target pelanggan tersebut, namun mengabaikan outlier yang ada dalam datanya.
Pengabaian ini akan berdampak pada kesalahan perusahaan untuk menentukan harga produk/layanan dan membuat keputusan yang tidak akurat.
Memahami data dengan tepat
Outlier bisa mengaburkan pola sebenarnya dalam data. Artinya, mendeteksi outlier memungkinkan perusahaan mendapatkan pemahaman yang lebih akurat tentang pola dan tren dalam dataset.
Jika informasi yang didapatkan dari data sudah benar, perusahaan bisa membuat strategi lebih tepat. Data analyst juga bisa menghindari kesalahan interpretasi dan mengambil keputusan yang lebih cerdas berdasarkan pemahaman data secara mendalam.
Memastikan analisis valid
Manfaat lain dari mendeteksi outlier adalah memastikan validitas analisis data.
Outlier dapat memengaruhi distribusi data secara keseluruhan dan mengganggu asumsi dasar dalam metode analisis data. Dengan mendeteksi dan mengatasi outlier, data analyst akan menjaga konsistensi dan validitas dari hasil analisis.
Hal ini penting untuk membangun kepercayaan pada analisis yang dilakukan dan memastikan keputusan diambil berdasarkan fakta.
Mendeteksi jika ada kesalahan atau kecurangan
Outlier juga bisa menjadi indikator adanya kecurangan atau kesalahan dalam data.
Sebagai contoh, dalam data keuangan, adanya outlier yang mencurigakan bisa saja menunjukkan kemungkinan adanya kecurangan atau kesalahan penginputan data. Saat outlier sudah ditemukan, analyst bisa melakukan investigasi lebih lanjut untuk menemukan penyebabnya dan mengatasi masalah yang mungkin akan muncul.
Tipe-tipe Outlier
Berdasarkan Anodot, berikut adalah tipe-tipe outlier:
#1 Global Outlier
Global outlier adalah jenis outlier yang paling umum. Nilai ini terpisah secara signifikan dari sebagian besar nilai lain dalam kumpulan data.
Sebagai contoh, dalam kumpulan data berat badan orang dewasa, seseorang dengan berat badan 370 kg dianggap sebagai global outlier karena berat badan tersebut berada jauh di luar rentang normal.
#2 Contextual Outlier
Contextual outlier adalah nilai abnormal yang berada dalam konteks tertentu, tetapi tidak secara keseluruhan.
Misalnya, suhu udara 30 derajat celcius di musim panas mungkin dianggap normal. Namun, jika terjadi pada musim dingin, nilai ini bisa dianggap sebagai contextual outlier. Dalam kasus ini, 'musim' adalah konteks yang membuat suhu tersebut menjadi outlier.
#3 Collective Outlier
Collective outlier adalah sekumpulan nilai yang secara kolektif dianggap abnormal, meski masing-masing nilai mungkin tidak dianggap outlier.
Perbedaan ini mungkin tidak terlihat ketika melihat nilai individual. Namun, jika dianalisis secara keseluruhan, kelompok data tersebut dapat dianggap sebagai outlier.
Contohnya, terjadi peningkatan tajam pada penjualan suatu produk dalam beberapa hari berturut-turut. Nilai penjualan harian tersebut mungkin dianggap normal, tetapi jika digabungkan dengan periode waktu lain, peningkatan itu bisa saja abnormal dan merupakan collective outlier.
Contoh Data Outlier
Berikut adalah ilustrasi adanya data outlier.
Analyst sedang mengumpulkan data suhu harian di kota Jakarta selama satu bulan. Mayoritas suhu berada di antara 25-30 derajat celcius. Namun, pada suatu hari, suhu mencapai 40 derajat. Suhu tersebut bisa dianggap sebagai outlier karena berada di luar pola suhu yang umum terjadi.
Contoh lainnya adalah dalam data penjualan toko. Penjualan harian rata-rata toko X adalah 500 unit. Pada satu hari tertentu, penjualan mencapai 5.000 unit. Nilai 5.000 unit ini bisa dianggap sebagai outlier karena jauh melebihi penjualan harian biasa.
Cara mencari outlier untuk contoh di atas bisa dilakukan dengan:
- Box plot: yaitu alat visualisasi yang bisa menampilkan outlier berupa titik atau bintang yang berada di luar 'kotak' utama plot. 'Kotak' ini merepresentasikan kuartil pertama hingga kuartil ketiga dari data. Titik-titik atau bintang di luar kotak ini merupakan outlier.
- Z-Score: yaitu ukuran statistik yang menunjukkan seberapa jauh suatu nilai dari rata-rata kumpulan data. Nilai dengan Z-Score sangat tinggi atau sangat rendah dapat dianggap sebagai outlier. Biasanya, nilai dengan Z-Score di atas 3 atau di bawah -3 dianggap sebagai outlier.
- Interquartile Range (IQR): IQR adalah rentang antara kuartil pertama dan ketiga dari kumpulan data. Nilai yang berada di luar 1,5 kali IQR dari kuartil pertama atau ketiga dapat dianggap sebagai outlier.
FAQ (Frequently Asked Question)
Bagaimana cara mengatasi data outlier?
Berikut beberapa cara untuk mengatasi data outlier:
Mengidentifikasi outlier
Langkah pertama dalam mengatasi outlier adalah identifikasi. Analyst bisa menggunakan metode visualisasi seperti boxplot atau scatter plot untuk memvisualisasikan data dan melihat apakah ada data yang jauh berbeda dari yang lain.
Transformasi data
Dalam beberapa kasus, transformasi data bisa digunakan untuk mengurangi efek outlier. Misalnya, transformasi logaritmik dapat diterapkan untuk data yang memiliki skewness atau kecondongan tinggi.
Transformasi ini bisa mengurangi efek outlier dan membuat data lebih mudah dianalisis.
Menghapus outlier
Dalam beberapa situasi, penghapusan outlier merupakan pilihan paling tepat. Jika outlier merupakan hasil dari kesalahan input atau noise, penghapusan outlier akan meningkatkan akurasi analisis data.
Namun, penting untuk berhati-hati saat menghapus outlier karena terkadang outlier justru bisa memberikan informasi penting.
Imputasi
Imputasi adalah proses penggantian nilai outlier dengan nilai lain. Nilai pengganti ini bisa berupa mean, median, atau modus dari kumpulan data.
Metode imputasi membantu mengurangi pengaruh outlier, namun harus digunakan dengan hati-hati karena bisa mengubah distribusi data.