Random Forest
Random forest adalah algoritma machine learning yang menggabungkan beberapa decision tree untuk mencapai hasil yang lebih akurat.
data-analytics
Apa itu Random Forest?
Random forest merupakan salah satu algoritma machine learning yang umum digunakan oleh data scientist, khususnya dalam permasalahan klasifikasi dan regresi. Lalu apa itu random forest?
Dikutip dari IBM, random forest adalah algoritma yang menggabungkan hasil (output) dari beberapa decision tree untuk mencapai satu hasil yang lebih akurat.
Decision tree adalah algoritma machine learning non-parametrik yang berbentuk seperti struktur pohon.
Decision tree diawali dengan satu simpul (root node) yang mewakili pertanyaan atau keputusan awal, simpul berikutnya (internal node/decision node) yang mewakili jawaban dari pertanyaan sebelumnya, cabang yang mewakili pilihan jalur keputusan, daun (leaf node/terminal node) yang mewakili keputusan akhir.
Random forest membutuhkan gabungan beberapa decision tree untuk memprediksi hasil yang akurat.
Konsep sederhana dari random forest adalah beberapa decision tree yang tidak berkorelasi akan bekerja lebih baik sebagai kelompok dibandingkan individu.
Saat menggunakan random forest sebagai pengklasifikasi, satu decision tree menyumbang satu suara. Setiap decision tree bisa menghasilkan jawaban yang sama atau berbeda satu sama lain. Misalnya decision tree A, B, E dan F memprediksi hasil 1. Sementara decision tree C dan D memprediksi hasil 0.
Karena ada banyaknya alternatif jawaban dalam decision tree dan kemungkinan bias yang tinggi, random forest mengambil prediksi hasil dari beberapa decision tree berdasarkan suara mayoritas dan memprediksi hasil yang lebih akurat.
Semakin banyak hasil decision tree yang diambil, semakin tinggi akurasi terutama ketika masing-masing pohon tidak berkorelasi satu sama lain.
Namun bukan berarti hasil dari random forest selalu tepat. Karena itu ada dua asumsi untuk mendapatkan hasil yang lebih baik:
- Harus ada beberapa nilai aktual dalam dalam variabel fitur dari kumpulan data, sehingga pengklasifikasi dapat memprediksi hasil akurat.
- Prediksi dari setiap pohon harus memiliki korelasi yang sangat rendah.
Mekanisme Kerja Random Forest
Dikutip dari Javatpoint, cara kerja random forest terbagi menjadi dua fase. Fase pertama yaitu menggabungkan hasil (N) dari beberapa decision tree untuk membuat random forest.
Fase kedua yaitu membuat prediksi untuk setiap pohon yang dibuat pada fase pertama.
Berikut tahapan proses kerja random forest:
Langkah 1: Pilih titik data K secara acak dari training set.
Langkah 2: Buat decision tree untuk setiap sampel dengan titik data yang dipilih.
Langkah 3: Pilih berapa banyak jawaban decision tree yang ingin dilibatkan untuk membangun random forest.
Langkah 4: Pertimbangkan hasil akhir berdasarkan suara mayoritas atau rata-rata.
Contoh Implementasi Random Forest
Random forest banyak digunakan oleh data scientist yang bergerak di bidang perbankan, perdagangan saham, medis, dan e-commerce. Tujuannya untuk membantu operasional bisnis berjalan secara efisien.
Misalnya di bidang perbankan, random forest digunakan untuk mendeteksi nasabah kredit yang cenderung membayar kredit tepat waktu, dan yang lebih sering menggunakan layanan bank. Bahkan algoritma ini juga bisa membantu mendeteksi penipuan.
Pedagang saham menggunakan random forest untuk memprediksi pasar saham di masa mendatang. Perusahaan ritel memanfaatkan algoritma ini untuk merekomendasikan produk dan menilai kepuasan pelanggan.
Di dunia medis, random forest digunakan untuk menganalisis riwayat kesehatan pasien untuk mengidentifikasi penyakit yang diderita, dan menentukan kombinasi pengobatan yang tepat.
FAQ (Frequently Asked Question)
Kapan random forest sebaiknya digunakan?
Random forest sebaiknya digunakan ketika ukuran dataset sangat besar, untuk menyelesaikan tugas klasifikasi dan regresi, dan bukan dengan tujuan interpretasi hasil.
Kapan random forest sebaiknya dihindari?
Random forest memiliki waktu pelatihan yang sangat lama, jadi lebih baik menghindarinya jika waktu yang dimiliki sangat sempit.