top of page

Data Cleaning

Data cleaning adalah proses memperbaiki atau menghapus kesalahan, ketidakkonsistenan, dan ketidakakuratan dalam kumpulan data.

data-analytics

Apa itu Data Cleaning?

Data cleaning adalah proses memperbaiki atau menghapus kesalahan, ketidakkonsistenan, dan ketidakakuratan dalam kumpulan data.

Data cleaning merupakan tahapan yang perlu dilakukan sebelum analisis data karena biasanya data mentah mengandung informasi yang tidak akurat, tidak tersusun rapi, atau tidak lengkap.  

Kenapa Data Cleaning Harus Dilakukan?

Menurut tableau.com, data cleaning perlu dilakukan karena alasan berikut: 

Menghapus kesalahan dari berbagai sumber data

Data cleaning membantu dalam mengidentifikasi dan memperbaiki kesalahan yang timbul saat mengolah data dari berbagai sumber. Dengan menghapus ketidakkonsistenan dan ketidakakuratan, data cleaning dapat memastikan bahwa suatu kumpulan data dapat dipercaya.

Meningkatkan kepuasan klien dan performa karyawan 

Ketika data bersih dan bebas dari kesalahan, kinerja karyawan akan semakin teratur dan klien juga akan semakin puas dengan kinerja perusahaan. Hal ini disebabkan karena data yang bersih dapat menghasilkan analisis yang lebih akurat dan memfasilitasi kelancaran operasional bisnis.

Memahami tujuan dan fungsi data 

Data cleaning bermanfaat bagi perusahaan untuk memetakan dan memahami berbagai fungsi dan tujuan penggunaan data mereka. Dengan menjaga integritas dan konsistensi data, perusahaan dapat menyelaraskan data mereka dengan tujuannya, sehingga dapat mendukung proses pengambilan keputusan.

Memantau kesalahan dan membuat reporting yang lebih baik

Melalui data cleaning, perusahaan dapat memantau kesalahan secara efektif dan menghasilkan laporan komprehensif untuk mengidentifikasi sumber kesalahan sehingga bisnis dapat memperbaiki data yang salah atau rusak dengan lebih efisien. Selain itu, hasil yang diperoleh berdasarkan analisis kesalahan dapat digunakan untuk mencegah masalah serupa di masa mendatang.

Langkah-langkah Data Cleaning

Melansir dari tableau.com, langkah-langkah data cleaning adalah: 

langkah data cleaning

Langkah 1: Hapus duplikat atau data yang tidak relevan

Data duplikat sering muncul selama pengumpulan data dari berbagai sumber atau departemen. Pada langkah ini, data duplikat pada suatu dataset perlu dihapus. Demikian pula, informasi yang tidak relevan dengan tujuan perusahaan juga harus dihilangkan supaya kumpulan datanya bisa terfokus dan dapat dikelola.

Langkah 2: Perbaiki kesalahan struktural

Kesalahan struktural adalah ketidakkonsistenan dalam aturan penamaan, kesalahan ketik, atau kapitalisasi yang salah, yang dapat menyebabkan kategori atau kelas yang salah label. Pada langkah ini, data diberi label dan diatur dengan benar, misalnya, jika "N/A" dan "Not applicable" mewakili kategori yang sama, keduanya harus dibuat konsisten.  

Langkah 3: Saring outlier yang tidak diinginkan

Pada tahap ini, dilakukan identifikasi dan pengelolaan outlier yang tidak sesuai dengan data yang dianalisis. Outlier dapat dihapus jika penyebabnya adalah kesalahan entri data dan kesalahan lain dengan izin perusahaan supaya datanya lebih akurat. Namun, outlier perlu dikelola dengan hati-hati karena dapat memberikan informasi penting atau mendukung hipotesis. 

Langkah 4: Kelola data yang hilang

Data yang hilang tidak dapat diabaikan karena banyak algoritma memerlukan kumpulan data lengkap. Ada berbagai cara untuk menangani nilai-nilai yang hilang, salah satu opsinya adalah membuang data dengan nilai yang hilang, meskipun hal ini menyebabkan hilangnya informasi. 

Cara kedua adalah menyesuaikan nilai yang hilang dengan informasi lain, namun cara ini berisiko karena mengandalkan asumsi. Pilihan lainnya adalah mengadaptasi penggunaan data yang dapat menangani nilai null secara efektif.

Langkah 5: Validasi dan lakukan quality assurance (QA)

Pada langkah terakhir, data yang dibersihkan divalidasi untuk memastikan integritas dan reabilitasnya. Caranya adalah dengan mengajukan pertanyaan terkait data, seperti apakah datanya masuk akal dan mengikuti aturan yang sesuai.

Validasi data dapat mencegah kesimpulan yang salah dan mendukung strategi bisnis serta pengambilan keputusan berdasarkan data. 

Contoh Data Cleaning

Mengutip dari thoughtspot.com, berikut adalah contoh data cleaning pada beberapa kasus: 

Nilai kosong atau hilang

Dalam kehidupan nyata, kumpulan data sering kali memiliki nilai yang hilang atau kosong. Untuk mengatasi masalah ini, teknik data cleaning digunakan untuk mengisi kekosongan dengan perkiraan yang tepat. 

Misalnya, jika informasi yang mewakili "lokasi" hilang, data scientist dapat menggunakan metode data cleaning untuk menggantinya dengan data lokasi rata-rata dari kumpulan data yang ada. Sebagai alternatif, informasi data yang hilang dapat juga diambil dari sumber lain yang dapat diandalkan.

Outlier

Kumpulan data dapat berisi informasi data yang memiliki nilai atau karakteristik yang secara signifikan menyimpang dari yang lain, yang dikenal sebagai outlier. Outlier dapat mendistorsi hasil analisis data dan menyebabkan kesimpulan yang tidak akurat atau keputusan yang salah. 

Untuk mengurangi hal ini, teknik data cleaning digunakan untuk mengidentifikasi dan menghapus outlier dari kumpulan data sehingga membantu menjaga akurasi dan reliabilitas dalam analisis selanjutnya.

Formatting data

Formatting data adalah transformasi data ke dalam format yang diinginkan, seperti mengubah tipe data, restrukturisasi kumpulan data, atau membuat model data yang sesuai. Tipe dan struktur data yang tidak konsisten dapat menimbulkan kesalahan selama analisis data. 

Oleh karena itu, data cleaning digunakan untuk memastikan bahwa data diformat dengan tepat. Misalnya, data scientist dapat mengkonversi data kategorikal menjadi format numerik atau mengintegrasikan berbagai sumber data ke dalam satu kumpulan data yang konsisten. 

FAQ (Frequently Asked Question)

Apakah data cleaning sama dengan data cleansing?

Melansir dari techtarget.com, data cleaning, data cleansing, maupun data scrubbing pada dasarnya adalah hal yang sama. Ketiga istilah tersebut sering digunakan secara bergantian untuk mengacu pada proses mengidentifikasi dan memperbaiki kesalahan, ketidakkonsistenan, dan ketidakakuratan dalam data.

Mulai karirmu dalam

data-analytics

Belajar di RevoU! Dapatkan skill digital paling in-demand langsung dari praktisi terbaik di bidangnya. Kelas online 100% LIVE, 1:1 career coaching, dan akses ke Community Hub dengan 6000+ member selamanya untuk support perkembangan karir kamu!

IKUT KURSUS GRATIS
bottom of page