Outlier

Outlier adalah nilai yang jauh berbeda dari nilai lainnya dalam kumpulan data. Nilai ini muncul sebagai pengecualian dalam pola data yang ada.

Data Analytics

Mau Belajar

Data Analytics

GRATIS?

Belajar di RevoU! Dapatkan skill digital paling in-demand langsung dari praktisi terbaik di bidangnya. Kelas online 100% LIVE, 1:1 career coaching, dan akses ke Community Hub dengan 6000+ member selamanya untuk support perkembangan karir kamu!

IKUT KURSUS GRATIS

Mau Belajar

Data Analytics

GRATIS?

Apa itu Outlier?

Pengertian outlier
Pengertian outlier

Outlier adalah nilai yang jauh berbeda dari nilai lainnya dalam kumpulan data. Nilai ini muncul sebagai pengecualian dalam pola data yang ada.

Nilai yang ada di outlier bisa jauh lebih tinggi maupun lebih rendah dibandingkan dengan nilai-nilai lain dalam dataset. Outlier bisa terjadi karena berbagai alasan, termasuk kesalahan pengukuran, kejadian langka, atau karena faktor lain yang tidak terduga.

Sebagai contoh, bisnis memiliki data penjualan toko sepatu selama satu bulan. Di satu hari tertentu, penjualannya mencapai angka yang jauh lebih tinggi dari hari-hari sebelumnya. Data di hari tersebut bisa dianggap sebagai outlier.

Mengapa Penting untuk Mendeteksi Outlier?

Mendeteksi outlier merupakan langkah penting dalam analisis data karena outlier memiliki dampak signifikan terhadap hasil analisis dan berpotensi menghasilkan kesimpulan yang tidak akurat.

Berikut beberapa alasan lain di balik pentingnya mendeteksi outlier:

Menghindari distorsi analisis

Outlier dapat menyebabkan hasil analisis statistik dan model prediksi menyimpang. Jika outlier tidak diidentifikasi dan diatasi, pola umum dalam data tersebut akan berubah dan menghasilkan kesimpulan yang tidak tepat.

Contohnya, salah satu faktor untuk menentukan harga produk/layanan adalah gaji target pelanggan. Suatu bisnis sudah memiliki data tentang gaji target pelanggan tersebut, namun mengabaikan outlier yang ada dalam datanya.

Pengabaian ini akan berdampak pada kesalahan perusahaan untuk menentukan harga produk/layanan dan membuat keputusan yang tidak akurat.

Memahami data dengan tepat

Outlier bisa mengaburkan pola sebenarnya dalam data. Artinya, mendeteksi outlier memungkinkan perusahaan mendapatkan pemahaman yang lebih akurat tentang pola dan tren dalam dataset.

Jika informasi yang didapatkan dari data sudah benar, perusahaan bisa membuat strategi lebih tepat. Data analyst juga bisa menghindari kesalahan interpretasi dan mengambil keputusan yang lebih cerdas berdasarkan pemahaman data secara mendalam.

Memastikan analisis valid

Manfaat lain dari mendeteksi outlier adalah memastikan validitas analisis data. 

Outlier dapat memengaruhi distribusi data secara keseluruhan dan mengganggu asumsi dasar dalam metode analisis data. Dengan mendeteksi dan mengatasi outlier, data analyst akan menjaga konsistensi dan validitas dari hasil analisis.

Hal ini penting untuk membangun kepercayaan pada analisis yang dilakukan dan memastikan keputusan diambil berdasarkan fakta.

Mendeteksi jika ada kesalahan atau kecurangan

Outlier juga bisa menjadi indikator adanya kecurangan atau kesalahan dalam data.

Sebagai contoh, dalam data keuangan, adanya outlier yang mencurigakan bisa saja menunjukkan kemungkinan adanya kecurangan atau kesalahan penginputan data. Saat outlier sudah ditemukan, analyst bisa melakukan investigasi lebih lanjut untuk menemukan penyebabnya dan mengatasi masalah yang mungkin akan muncul.

Tipe-tipe Outlier

Tipe outlier
Tipe outlier

Berdasarkan Anodot, berikut adalah tipe-tipe outlier:

#1 Global Outlier

Global outlier adalah jenis outlier yang paling umum. Nilai ini terpisah secara signifikan dari sebagian besar nilai lain dalam kumpulan data.

Sebagai contoh, dalam kumpulan data berat badan orang dewasa, seseorang dengan berat badan 370 kg dianggap sebagai global outlier karena berat badan tersebut berada jauh di luar rentang normal.

#2 Contextual Outlier

Contextual outlier adalah nilai abnormal yang berada dalam konteks tertentu, tetapi tidak secara keseluruhan.

Misalnya, suhu udara 30 derajat celcius di musim panas mungkin dianggap normal. Namun, jika terjadi pada musim dingin, nilai ini bisa dianggap sebagai contextual outlier. Dalam kasus ini, 'musim' adalah konteks yang membuat suhu tersebut menjadi outlier.

#3 Collective Outlier

Collective outlier adalah sekumpulan nilai yang secara kolektif dianggap abnormal, meski masing-masing nilai mungkin tidak dianggap outlier.

Perbedaan ini mungkin tidak terlihat ketika melihat nilai individual. Namun, jika dianalisis secara keseluruhan, kelompok data tersebut dapat dianggap sebagai outlier.

Contohnya, terjadi peningkatan tajam pada penjualan suatu produk dalam beberapa hari berturut-turut. Nilai penjualan harian tersebut mungkin dianggap normal, tetapi jika digabungkan dengan periode waktu lain, peningkatan itu bisa saja abnormal dan merupakan collective outlier.

Contoh Data Outlier

Berikut adalah ilustrasi adanya data outlier.

Analyst sedang mengumpulkan data suhu harian di kota Jakarta selama satu bulan. Mayoritas suhu berada di antara 25-30 derajat celcius. Namun, pada suatu hari, suhu mencapai 40 derajat. Suhu tersebut bisa dianggap sebagai outlier karena berada di luar pola suhu yang umum terjadi.

Contoh lainnya adalah dalam data penjualan toko. Penjualan harian rata-rata toko X adalah 500 unit. Pada satu hari tertentu, penjualan mencapai 5.000 unit. Nilai 5.000 unit ini bisa dianggap sebagai outlier karena jauh melebihi penjualan harian biasa.

Cara mencari outlier untuk contoh di atas bisa dilakukan dengan:

  • Box plot: yaitu alat visualisasi yang bisa menampilkan outlier berupa titik atau bintang yang berada di luar 'kotak' utama plot. 'Kotak' ini merepresentasikan kuartil pertama hingga kuartil ketiga dari data. Titik-titik atau bintang di luar kotak ini merupakan outlier.
  • Z-Score: yaitu ukuran statistik yang menunjukkan seberapa jauh suatu nilai dari rata-rata kumpulan data. Nilai dengan Z-Score sangat tinggi atau sangat rendah dapat dianggap sebagai outlier. Biasanya, nilai dengan Z-Score di atas 3 atau di bawah -3 dianggap sebagai outlier.
  • Interquartile Range (IQR): IQR adalah rentang antara kuartil pertama dan ketiga dari kumpulan data. Nilai yang berada di luar 1,5 kali IQR dari kuartil pertama atau ketiga dapat dianggap sebagai outlier.

FAQ (Frequently Asked Question)

Bagaimana cara mengatasi data outlier?

Berikut beberapa cara untuk mengatasi data outlier:

Mengidentifikasi outlier

Langkah pertama dalam mengatasi outlier adalah identifikasi. Analyst bisa menggunakan metode visualisasi seperti boxplot atau scatter plot untuk memvisualisasikan data dan melihat apakah ada data yang jauh berbeda dari yang lain.

Transformasi data

Dalam beberapa kasus, transformasi data bisa digunakan untuk mengurangi efek outlier. Misalnya, transformasi logaritmik dapat diterapkan untuk data yang memiliki skewness atau kecondongan tinggi.

Transformasi ini bisa mengurangi efek outlier dan membuat data lebih mudah dianalisis.

Menghapus outlier

Dalam beberapa situasi, penghapusan outlier merupakan pilihan paling tepat. Jika outlier merupakan hasil dari kesalahan input atau noise, penghapusan outlier akan meningkatkan akurasi analisis data.

Namun, penting untuk berhati-hati saat menghapus outlier karena terkadang outlier justru bisa memberikan informasi penting.

Imputasi

Imputasi adalah proses penggantian nilai outlier dengan nilai lain. Nilai pengganti ini bisa berupa mean, median, atau modus dari kumpulan data.

Metode imputasi membantu mengurangi pengaruh outlier, namun harus digunakan dengan hati-hati karena bisa mengubah distribusi data.

Kata kunci lainnya

Mulai karirmu dalam

Data Analytics

Belajar di RevoU! Dapatkan skill digital paling in-demand langsung dari praktisi terbaik di bidangnya. Kelas online 100% LIVE, 1:1 career coaching, dan akses ke Community Hub dengan 6000+ member selamanya untuk support perkembangan karir kamu!
ikut kursus gratis
Daftar Isi