4 Cara Combine DataFrame dengan Concat di Pandas

Yuk, pelajari empat cara combine DataFrame dengan fungsi concat di Pandas!
RevoU Staff
June 8, 2024
4
min read

Mau Belajar

Data Analytics

?

Belajar di RevoU! Dapatkan skill digital paling in-demand langsung dari praktisi terbaik di bidangnya. Kelas online 100% LIVE, 1:1 career coaching, dan akses ke Community Hub dengan 6000+ member selamanya untuk support perkembangan karir kamu!
DAFTAR FULL PROGRAMCOBA COURSE GRATIS

Overview

Fungsi concat() di Pandas digunakan untuk menggabungkan dua atau lebih DataFrame sepanjang sumbu yang ditentukan, baik secara vertikal maupun horizontal. Ini memungkinkan penggunaan berbagai pengaturan untuk mengatur join dan indeks, menjadikannya alat yang fleksibel untuk manipulasi dan analisis data.

Python concat, atau penggabungan data, adalah sebuah metode dalam analisis data untuk menggabungkan dua atau lebih DataFrame secara vertikal maupun horizontal.

Proses ini serupa dengan penggabungan tabel dalam database, di mana kamu dapat menyatukan informasi dari beberapa sumber data berbeda ke dalam satu struktur yang teratur.

Menggunakan concat(), kamu dapat lebih mudah menggabungkan baris dari satu DataFrame dengan DataFrame lain, atau menambahkan kolom baru ke DataFrame yang ada tanpa kehilangan data. Hal ini berguna saat kamu memiliki data yang terfragmentasi, atau jika kamu perlu melakukan analisis komprehensif dari kumpulan data besar dan beragam.

Yuk, pelajari kegunaan sekaligus cara dan contoh penggunaannya di artikel ini!

Kegunaan Concat Method?

Berikut beberapa kegunaan penting dari metode concat:

  • Menggabungkan data dari berbagai sumber: concat membantu penggabungan data dari berbagai sumber dengan mudah. Misalnya, jika kamu memiliki data pelanggan dari beberapa bulan yang berbeda sebagai file terpisah, kamu bisa menggunakan concat untuk menggabungkan semua data tersebut ke dalam satu DataFrame.
  • Analisis data yang komprehensif: dengan menggabungkan dataset berbeda, kamu bisa melakukan analisis lebih mendalam dan mendapatkan insight secara komprehensif. Hal ini berguna dalam mengevaluasi tren, pola, dan hubungan yang mungkin tidak terlihat jika data dianalisis secara terpisah.
  • Pengolahan data skala besar: dalam banyak kasus, data dikumpulkan dalam potongan atau batch. Concat memudahkan penanganan dan pengolahan data skala besar dengan menggabungkan batch atau potongan tersebut menjadi satu set data yang konsisten dan siap analisis.
  • Efisiensi waktu dan sumber daya: menggunakan concat untuk menggabungkan DataFrame menghemat waktu dan sumber daya yang mungkin terbuang untuk pengolahan data secara manual. Fungsi ini memaksimalkan efisiensi dengan mengotomatisasi proses penggabungan, yang bisa sangat berharga dalam proyek dengan deadline ketat atau sumber daya terbatas.
  • Menjaga integritas data: metode concat memastikan selama proses penggabungan, struktur data tetap utuh dan tidak terjadi kehilangan informasi. Ini penting ketika keakuratan dan kualitas data adalah prioritas utama dalam analisis data.

Cara dan Contoh Penggunaan Concat di Pandas

Berikut beberapa cara sekaligus contoh penggunaan concat di Pandas:

#1 Menggabungkan DataFrame secara vertikal (row-wise)

Langkah-langkah:

  • Pastikan setiap DataFrame memiliki kolom yang sama agar penggabungan dapat dilakukan secara konsisten.
  • Gunakan fungsi pd.concat(), lalu masukkan DataFrame yang ingin digabungkan sebagai list.
  • Set axis=0 untuk menggabungkan secara vertikal.

Contoh:

Misalkan kita memiliki dua DataFrame sebagai berikut:

Output:

#2 Menggabungkan DataFrame secara horizontal (column-wise)

Langkah-langkah:

  • Pastikan DataFrame memiliki jumlah baris yang sama.
  • Gunakan pd.concat() dan set axis=1 untuk menggabungkan secara horizontal.

Contoh:

Output:

#3 Menggabungkan dengan menyertakan indeks (ignoring index)

Langkah-langkah:

  • Gunakan pd.concat() dan set ignore_index=True untuk membuat indeks baru dan menghindari duplikasi indeks.

Output:

#4 Menggabungkan dengan mengatur join (inner/outer join)

Langkah-langkah:

  • Tentukan jenis join yang diinginkan: inner untuk irisan kolom, outer untuk gabungan kolom.
  • Gunakan join='inner' atau join='outer' dalam pd.concat().

Contoh:

Kode (outer join):

Output (outer join):

FAQs (Frequently Asked Questions)

Bagaimana cara menangani kolom yang berbeda saat menggunakan concat()?

Ketika menggunakan concat() di Pandas untuk menggabungkan DataFrame yang memiliki set kolom berbeda, ada beberapa cara untuk menangani perbedaan kolom ini:

#1 Menggunakan parameter join

Parameter join dalam fungsi concat() membantu mengontrol bagaimana kolom yang tidak cocok antara DataFrame yang digabungkan akan di-handle:

  • join='outer': ini adalah pengaturan default. Fungsi concat() akan menggabungkan semua kolom yang ada di semua DataFrame, dan kolom yang tidak ada di beberapa DataFrame akan diisi dengan nilai NaN.
  • join='inner': hanya kolom yang ada di semua DataFrame yang akan dijaga dalam hasil akhir. Ini berarti jika kolom tidak ada di salah satu DataFrame, kolom tersebut akan diabaikan dari hasil penggabungan.

#2 Mengabaikan indeks dengan ignore_index=True

Jika kamu ingin menggabungkan data dan tidak memperdulikan indeks asli dari setiap DataFrame, kamu dapat menggunakan parameter ignore_index=True. Ini akan membuat indeks baru untuk hasil DataFrame gabungan, yang membantu dalam menghindari duplikasi indeks dan menjaga kesinambungan indeks.

Apakah concat() bisa menggabungkan lebih dari dua DataFrame sekaligus?

Pada dasarnya, fungsi concat() di Pandas bisa menggabungkan lebih dari dua DataFrame sekaligus. Fungsi ini sangat fleksibel dan memungkinkan penggabungan beberapa DataFrame dalam satu panggilan fungsi.

Kamu hanya perlu menyediakan DataFrame yang ingin digabungkan sebagai elemen dalam sebuah list.

Bagaimana menangani duplikasi indeks setelah menggunakan concat()?

Menghadapi duplikasi indeks setelah menggunakan concat() di Pandas adalah situasi yang sering terjadi, terutama saat menggabungkan beberapa DataFrame yang masih mempertahankan indeks asli mereka.

Setiap metode ini memiliki kegunaan tergantung pada situasi dan kebutuhan analisis data kamu. Menggunakan ignore_index=True biasanya cukup untuk kebanyakan situasi di mana duplikasi indeks menjadi masalah setelah menggunakan concat().

Untuk menangani hal ini, kamu memiliki beberapa pilihan:

#1 Menggunakan ignore_index=True

Opsi ini akan mengabaikan indeks asli dari DataFrame yang digabungkan dan membuat indeks baru yang berurutan dari nol. Ini adalah cara paling mudah dan sering dipakai untuk menghindari masalah duplikasi indeks.

#2 Menggunakan keys untuk membuat hierarki indeks (multiIndex)

Jika kamu ingin mempertahankan informasi tentang sumber dari setiap baris data, kamu bisa menggunakan parameter keys untuk menambahkan label tambahan pada indeks. Ini akan menghasilkan MultiIndex, yang menjelaskan asal data tanpa menghilangkan duplikasi indeks asli.

Cara menggunakan parameter keys

  • Tentukan label untuk setiap DataFrame: saat menggunakan keys, kamu memberikan sebuah list berisi label untuk setiap DataFrame yang digabungkan. Label ini akan muncul sebagai level tambahan dalam indeks, memudahkan identifikasi sumber data setelah penggabungan.
  • Penggabungan data: selain menambahkan label ke indeks, semua operasi lainnya dalam concat() seperti menentukan sumbu (axis), pengaturan join (inner atau outer), dan lain-lain masih dapat digunakan.

#3 Reset indeks

Metode lain adalah menggunakan .reset_index() setelah penggabungan, yang tidak hanya mengabaikan indeks lama, tetapi juga menambahkan kolom indeks lama sebagai kolom baru dalam DataFrame, jika kamu tidak menggunakan parameter drop=True.

#4 Menggabungkan dengan cara yang unik

Jika masalahnya adalah data duplikat dan bukan hanya indeks, kemungkinan kamu juga ingin memeriksa isi baris sebelum memutuskan untuk menggabungkan. Dalam hal ini, pertimbangkan untuk menggunakan metode seperti drop_duplicates() setelah concat() untuk memastikan tidak hanya indeks yang unik, tetapi juga data tersebut.

Apa perbedaan merge, concat, dan join?

Berikut tabel perbedaan antara merge, concat, dan join:

RevoU Staff
Kickstart your career in tech with RevoU!

Masih ragu? Coba dulu 3 hari, GRATIS
di Full-Stack Trial Class!

Rasakan pengalaman belajar di RevoU Full-Stack Program: Kelas 100% LIVE, Mini portofolio lewat hands-on assignment, Bimbingan Team Lead & small group discussion. Kalau cocok, kamu bisa lanjut daftar Full Program dengan kesempatan Fast-Track (skip semua tes seleksi masuk, langsung ke tahap akhir!)

Masih ragu? Coba dulu 3 hari, GRATIS
di Full-Stack Trial Class!

Rasakan pengalaman belajar di RevoU Full-Stack Program: Kelas 100% LIVE, Mini portofolio lewat hands-on assignment, Bimbingan Team Lead & small group discussion. Kalau cocok, kamu bisa lanjut daftar Full Program dengan kesempatan Fast-Track (skip semua tes seleksi masuk, langsung ke tahap akhir!)

Masih ragu? Coba dulu 3 hari, GRATIS
di Full-Stack Trial Class!

Rasakan pengalaman belajar di RevoU Full-Stack Program: Kelas 100% LIVE, Mini portofolio lewat hands-on assignment, Bimbingan Team Lead & small group discussion. Kalau cocok, kamu bisa lanjut daftar Full Program dengan kesempatan Fast-Track (skip semua tes seleksi masuk, langsung ke tahap akhir!)

Artikel Lainnya

Mau belajar

Data Analytics

?

Belajar di RevoU! Dapatkan skill digital paling in-demand langsung dari praktisi terbaik di bidangnya. Kelas online 100% LIVE, 1:1 career coaching, dan akses ke Community Hub dengan 6000+ member selamanya untuk support perkembangan karir kamu!
Daftar Isi

Mulai karirmu dalam

Data Analytics

Belajar di RevoU! Dapatkan skill digital paling in-demand langsung dari praktisi terbaik di bidangnya. Kelas online 100% LIVE, 1:1 career coaching, dan akses ke Community Hub dengan 6000+ member selamanya untuk support perkembangan karir kamu!

Mau Belajar

Data Analytics

?

Belajar di RevoU! Dapatkan skill digital paling in-demand langsung dari praktisi terbaik di bidangnya. Kelas online 100% LIVE, 1:1 career coaching, dan akses ke Community Hub dengan 6000+ member selamanya untuk support perkembangan karir kamu!

DAFTAR FULL PROGRAM

Mau Belajar

Data Analytics

?

4 Cara Combine DataFrame dengan Concat di Pandas

Yuk, pelajari empat cara combine DataFrame dengan fungsi concat di Pandas!
RevoU Staff
June 8, 2024
4
min read

Overview

Fungsi concat() di Pandas digunakan untuk menggabungkan dua atau lebih DataFrame sepanjang sumbu yang ditentukan, baik secara vertikal maupun horizontal. Ini memungkinkan penggunaan berbagai pengaturan untuk mengatur join dan indeks, menjadikannya alat yang fleksibel untuk manipulasi dan analisis data.

Python concat, atau penggabungan data, adalah sebuah metode dalam analisis data untuk menggabungkan dua atau lebih DataFrame secara vertikal maupun horizontal.

Proses ini serupa dengan penggabungan tabel dalam database, di mana kamu dapat menyatukan informasi dari beberapa sumber data berbeda ke dalam satu struktur yang teratur.

Menggunakan concat(), kamu dapat lebih mudah menggabungkan baris dari satu DataFrame dengan DataFrame lain, atau menambahkan kolom baru ke DataFrame yang ada tanpa kehilangan data. Hal ini berguna saat kamu memiliki data yang terfragmentasi, atau jika kamu perlu melakukan analisis komprehensif dari kumpulan data besar dan beragam.

Yuk, pelajari kegunaan sekaligus cara dan contoh penggunaannya di artikel ini!

Kegunaan Concat Method?

Berikut beberapa kegunaan penting dari metode concat:

  • Menggabungkan data dari berbagai sumber: concat membantu penggabungan data dari berbagai sumber dengan mudah. Misalnya, jika kamu memiliki data pelanggan dari beberapa bulan yang berbeda sebagai file terpisah, kamu bisa menggunakan concat untuk menggabungkan semua data tersebut ke dalam satu DataFrame.
  • Analisis data yang komprehensif: dengan menggabungkan dataset berbeda, kamu bisa melakukan analisis lebih mendalam dan mendapatkan insight secara komprehensif. Hal ini berguna dalam mengevaluasi tren, pola, dan hubungan yang mungkin tidak terlihat jika data dianalisis secara terpisah.
  • Pengolahan data skala besar: dalam banyak kasus, data dikumpulkan dalam potongan atau batch. Concat memudahkan penanganan dan pengolahan data skala besar dengan menggabungkan batch atau potongan tersebut menjadi satu set data yang konsisten dan siap analisis.
  • Efisiensi waktu dan sumber daya: menggunakan concat untuk menggabungkan DataFrame menghemat waktu dan sumber daya yang mungkin terbuang untuk pengolahan data secara manual. Fungsi ini memaksimalkan efisiensi dengan mengotomatisasi proses penggabungan, yang bisa sangat berharga dalam proyek dengan deadline ketat atau sumber daya terbatas.
  • Menjaga integritas data: metode concat memastikan selama proses penggabungan, struktur data tetap utuh dan tidak terjadi kehilangan informasi. Ini penting ketika keakuratan dan kualitas data adalah prioritas utama dalam analisis data.

Cara dan Contoh Penggunaan Concat di Pandas

Berikut beberapa cara sekaligus contoh penggunaan concat di Pandas:

#1 Menggabungkan DataFrame secara vertikal (row-wise)

Langkah-langkah:

  • Pastikan setiap DataFrame memiliki kolom yang sama agar penggabungan dapat dilakukan secara konsisten.
  • Gunakan fungsi pd.concat(), lalu masukkan DataFrame yang ingin digabungkan sebagai list.
  • Set axis=0 untuk menggabungkan secara vertikal.

Contoh:

Misalkan kita memiliki dua DataFrame sebagai berikut:

Output:

#2 Menggabungkan DataFrame secara horizontal (column-wise)

Langkah-langkah:

  • Pastikan DataFrame memiliki jumlah baris yang sama.
  • Gunakan pd.concat() dan set axis=1 untuk menggabungkan secara horizontal.

Contoh:

Output:

#3 Menggabungkan dengan menyertakan indeks (ignoring index)

Langkah-langkah:

  • Gunakan pd.concat() dan set ignore_index=True untuk membuat indeks baru dan menghindari duplikasi indeks.

Output:

#4 Menggabungkan dengan mengatur join (inner/outer join)

Langkah-langkah:

  • Tentukan jenis join yang diinginkan: inner untuk irisan kolom, outer untuk gabungan kolom.
  • Gunakan join='inner' atau join='outer' dalam pd.concat().

Contoh:

Kode (outer join):

Output (outer join):

FAQs (Frequently Asked Questions)

Bagaimana cara menangani kolom yang berbeda saat menggunakan concat()?

Ketika menggunakan concat() di Pandas untuk menggabungkan DataFrame yang memiliki set kolom berbeda, ada beberapa cara untuk menangani perbedaan kolom ini:

#1 Menggunakan parameter join

Parameter join dalam fungsi concat() membantu mengontrol bagaimana kolom yang tidak cocok antara DataFrame yang digabungkan akan di-handle:

  • join='outer': ini adalah pengaturan default. Fungsi concat() akan menggabungkan semua kolom yang ada di semua DataFrame, dan kolom yang tidak ada di beberapa DataFrame akan diisi dengan nilai NaN.
  • join='inner': hanya kolom yang ada di semua DataFrame yang akan dijaga dalam hasil akhir. Ini berarti jika kolom tidak ada di salah satu DataFrame, kolom tersebut akan diabaikan dari hasil penggabungan.

#2 Mengabaikan indeks dengan ignore_index=True

Jika kamu ingin menggabungkan data dan tidak memperdulikan indeks asli dari setiap DataFrame, kamu dapat menggunakan parameter ignore_index=True. Ini akan membuat indeks baru untuk hasil DataFrame gabungan, yang membantu dalam menghindari duplikasi indeks dan menjaga kesinambungan indeks.

Apakah concat() bisa menggabungkan lebih dari dua DataFrame sekaligus?

Pada dasarnya, fungsi concat() di Pandas bisa menggabungkan lebih dari dua DataFrame sekaligus. Fungsi ini sangat fleksibel dan memungkinkan penggabungan beberapa DataFrame dalam satu panggilan fungsi.

Kamu hanya perlu menyediakan DataFrame yang ingin digabungkan sebagai elemen dalam sebuah list.

Bagaimana menangani duplikasi indeks setelah menggunakan concat()?

Menghadapi duplikasi indeks setelah menggunakan concat() di Pandas adalah situasi yang sering terjadi, terutama saat menggabungkan beberapa DataFrame yang masih mempertahankan indeks asli mereka.

Setiap metode ini memiliki kegunaan tergantung pada situasi dan kebutuhan analisis data kamu. Menggunakan ignore_index=True biasanya cukup untuk kebanyakan situasi di mana duplikasi indeks menjadi masalah setelah menggunakan concat().

Untuk menangani hal ini, kamu memiliki beberapa pilihan:

#1 Menggunakan ignore_index=True

Opsi ini akan mengabaikan indeks asli dari DataFrame yang digabungkan dan membuat indeks baru yang berurutan dari nol. Ini adalah cara paling mudah dan sering dipakai untuk menghindari masalah duplikasi indeks.

#2 Menggunakan keys untuk membuat hierarki indeks (multiIndex)

Jika kamu ingin mempertahankan informasi tentang sumber dari setiap baris data, kamu bisa menggunakan parameter keys untuk menambahkan label tambahan pada indeks. Ini akan menghasilkan MultiIndex, yang menjelaskan asal data tanpa menghilangkan duplikasi indeks asli.

Cara menggunakan parameter keys

  • Tentukan label untuk setiap DataFrame: saat menggunakan keys, kamu memberikan sebuah list berisi label untuk setiap DataFrame yang digabungkan. Label ini akan muncul sebagai level tambahan dalam indeks, memudahkan identifikasi sumber data setelah penggabungan.
  • Penggabungan data: selain menambahkan label ke indeks, semua operasi lainnya dalam concat() seperti menentukan sumbu (axis), pengaturan join (inner atau outer), dan lain-lain masih dapat digunakan.

#3 Reset indeks

Metode lain adalah menggunakan .reset_index() setelah penggabungan, yang tidak hanya mengabaikan indeks lama, tetapi juga menambahkan kolom indeks lama sebagai kolom baru dalam DataFrame, jika kamu tidak menggunakan parameter drop=True.

#4 Menggabungkan dengan cara yang unik

Jika masalahnya adalah data duplikat dan bukan hanya indeks, kemungkinan kamu juga ingin memeriksa isi baris sebelum memutuskan untuk menggabungkan. Dalam hal ini, pertimbangkan untuk menggunakan metode seperti drop_duplicates() setelah concat() untuk memastikan tidak hanya indeks yang unik, tetapi juga data tersebut.

Apa perbedaan merge, concat, dan join?

Berikut tabel perbedaan antara merge, concat, dan join:

RevoU Staff
Kickstart your career in tech with RevoU!
Menu