Normalisasi Data
Normalisasi data adalah proses mengatur ulang database agar lebih rapi dan bebas dari redudansi data, sehingga analyst bisa menggunakannya secara efisien.
data-analytics
Apa itu Normalisasi Data?
Di era sekarang, data adalah hal yang penting terutama bagi bisnis. Seluruh bisnis, baik perusahaan start up hingga perusahaan berskala besar mengumpulkan, menganalisis data, dan mengelolanya untuk mengembangkan perusahaan mereka.
Salah satu cara untuk mengelola data di database adalah dengan normalisasi data.
Normalisasi data adalah proses mengatur ulang database, termasuk menghapus data yang terduplikasi, sehingga database terlihat rapi dan analyst bisa menggunakannya lebih efisien.
Pada dasarnya, normalisasi data adalah membuat format standar penulisan data di seluruh sistem. Misalnya:
- Nyonya Emily ditulis dengan Ny. Emily
- 081345678901 ditulis dengan 0813-4567-8901
- VP marketing ditulis dengan Vice President of Marketing
Pengorganisasian ini juga melibatkan membuat tabel dan memastikan agar data yang tertera dalam tabel memiliki korelasi yang relevan satu sama lain.
Apa Pentingnya Normalisasi Data?
Normalisasi data atau normalisasi database tidak hanya berfungsi memudahkan analisis data dan pengambilan keputusan. Berikut beberapa manfaat normalisasi data:
- Membantu analyst berinteraksi dengan database menggunakan bahasa SQL
- Meminimalisir nilai null atau nilai hilang dalam database
- Mengeliminasi data yang tidak perlu atau terduplikasi
- Database yang terorganisir jadi memiliki ruang (space) yang lebih banyak
- Segmentasi data lebih baik, karena data yang sama dikumpulkan dalam kategori yang sama
- Mencegah atau mengurangi masalah saat melakukan modifikasi data
- Membantu analyst dalam menyortir dan memilah informasi di database (data mining) karena strukturnya lebih rapi dan mudah dibaca
Metode Normalisasi Data
Ada beberapa metode normalisasi data tergantung pada karakteristik data dan masalah yang ingin dipecahkan.
Berikut tiga metode normalisasi data yang paling umum digunakan:
#1 Decimal scaling
Decimal scaling atau decimal place normalization digunakan untuk tipe data numerik. Biasanya pada Excel, terdapat dua digit angka setelah tanda koma. Decimal scaling berfungsi mengatur berapa banyak angka yang ingin diletakkan setelah koma.
Cara melakukan decimal scaling adalah dengan membagi nilai data dengan 10 pangkat bilangan tertentu sesuai dengan nilai maksimum data.
Rumus decimal scaling adalah sebagai berikut:
Decimal scaling (Vi') = Vi10j
Sebagai contoh, diketahui nilai data adalah -10, 201, 301, -401, 501, 601, 701.
Berdasarkan data, nilai maksimum data adalah 701, maka bentuk desimalnya harus memiliki tiga angka di belakang koma. Artinya, setiap data harus dibagi dengan 10 pangkat 3.
Maka, cara menghitungnya:
Decimal scaling (Vi') = -10103 , dan seterusnya pada seluruh data.
Hasil yang didapatkan yaitu -0.01, 0.201, 0.301, -0.401, 0.501, 0.601, 0.701.
#2 Z-score normalization
Z-score normalization digunakan untuk membandingkan sekumpulan data dengan perbedaan yang signifikan. Misalnya, data A memiliki rentang nilai dari 10 hingga 100 sedangkan data B memiliki nilai rentang 1.000 hingga 10.000.
Pada teknik ini, nilai dinormalisasi berdasarkan mean dan standar deviasi dari data A. Selanjutnya dilakukan normalisasi dengan cara berikut:
V' = v - A A
V adalah nilai data, A adalah rata-rata kumpulan data, dan A adalah standar deviasi data A.
#3 Min-Max Normalization
Min-max normalization atau disebut juga dengan linear normalization digunakan untuk mempertahankan bentuk distribusi dan nilai pasti dari data minimum dan maksimum.
Dalam teknik ini, normalisasi dilakukan pada data asli dengan rumus:
V' = v - min (A)max (A) - min (A)
A merupakan atribut, sedangkan min (A) dan max (A) adalah nilai minimum dan maksimum dari A.
Contoh Normalisasi Data
Ade merupakan pengusaha jam tangan grosiran yang menjual ratusan hingga ribuan jam tangan per tahunnya. Ade memiliki dataset yang terdiri dari “Nama Produk” dan “Jumlah Penjualan” untuk setiap bulannya.
Untuk mengetahui perbandingan penjualan setiap produk jam tangan, Ade melakukan normalisasi data menggunakan metode decimal scaling dengan langkah sebagai berikut:
- Menentukan nilai maksimum data dalam kolom “Jumlah Penjualan”. Dalam contoh, nilai maksimumnya adalah 200.
- Menentukan jumlah digit desimal untuk menggambarkan nilai maksimum. Karena nilai maksimumnya 200, maka digit desimalnya adalah 2.
- Bagi setiap data dengan 10 pangkat 2, karena digit desimalnya adalah 2.
Setelah normalisasi, semua data berada di rentang 0 hingga 1 dengan 2 digit desimal. Hal ini membantu Ade melakukan analisis data secara lebih objektif.
FAQ (Frequently Asked Question)
Apa saja langkah-langkah normalisasi data?
Ada beberapa tahapan normalisasi data yang disebut dengan aturan normalisasi (normalization rules). Tiga aturan yang paling penting yaitu:
- 1NF (First Normal Form)
Bentuk normalisasi data paling dasar di mana hanya boleh ada satu nilai pada satu entri dan tidak boleh ada dua entri yang sama dalam satu grup.
- 2NF (Second Normal Form)
Memiliki aturan yang sama dengan 1NF, dengan tambahan setiap data hanya boleh memiliki 1 kata kunci utama. Tujuannya adalah untuk mengurangi data yang berlebihan.
- 3NF (Third Normal Form)
Bentuk ini memastikan bahwa tabel database terbebas dari dependensi transitif.
Misalnya ada tiga atribut dalam tabel pembeli kue, yaitu nama, jenis kue yang dibeli, dan harga. Atribut nama merupakan kata kunci utama, dan atribut jenis kue yang dibeli bergantung pada atribut nama.
Sedangkan atribut harga bergantung pada jenis kue, padahal atribut jenis kue bukan kata kunci utama.
Untuk memisahkan dependensi transitif, atribut yang saling bergantung harus dibuatkan tabel baru untuk menjelaskan hubungan di antara keduanya. Dalam contoh di atas, tabel barunya adalah tabel harga kue berdasarkan jenis kuenya.
Jadi ketika ada perubahan sewaktu-waktu dalam tabel harga kue, atribut harga pada seluruh tabel pembeli kue tidak berubah.