Overview
DataFrame memudahkan dalam mengelola dan menganalisis data dalam format tabular. Menggunakan struktur yang terdiri dari baris dan kolom, serta kemampuan untuk menerima berbagai jenis sumber data, DataFrame menjadi alat yang efisien dan fleksibel untuk bekerja dengan data.
Selalu ada informasi berharga di balik setiap data; cerita tentang kebiasaan konsumen, tren bisnis, dan wawasan penting lainnya yang membantu kita membuat keputusan bisnis lebih baik.
Namun, bagaimana kita bisa menggali cerita ini? Salah satu caranya yaitu dengan library Python yang disebut Pandas dengan komponen utamanya, DataFrame.
Di artikel ini, kita akan menjelajahi konsep DataFrame secara mendalam, belajar bagaimana membuat, memanipulasi, dan menganalisis data menggunakan DataFrame. Selamat membaca!
Apa itu DataFrame Pandas?
DataFrame adalah struktur data tabular dasar yang terdiri dari baris dan kolom. DataFrame berfungsi untuk menyimpan data dalam format grid yang dapat diubah-ubah, dengan fleksibilitas yang sangat besar.
Gambaran sederhananya, DataFrame mirip dengan tabel di Excel. Setiap baris dan kolom memiliki label yang bisa kita gunakan untuk mengakses dan memanipulasi data.
Lalu, apa hubungannya dengan Pandas? Nah, di sinilah peran utama Pandas.
Pandas adalah library di Python yang dipakai untuk bekerja dengan DataFrame. Melalui Pandas, kamu bisa lebih mudah memanipulasi, mengorganisir, dan membersihkan data.
Keuntungan utama dari DataFrame adalah efisiensi dalam memanipulasi dan menganalisis data. Dengan DataFrame, kamu dapat memfilter data, melakukan operasi aritmatika, melakukan agregasi data, dan banyak lainnya. Semuanya dilakukan dengan beberapa baris kode saja.
Struktur DataFrame
Struktur DataFrame terdiri dari tiga komponen utama, yaitu indeks, kolom, dan nilai.
Indeks
Indeks adalah label yang digunakan untuk mengidentifikasi setiap baris dalam DataFrame. Setiap baris memiliki indeks yang unik. Kita bisa menggunakan indeks ini untuk mengakses atau memanipulasi data pada baris tersebut.
Secara default, Pandas akan menetapkan indeks berdasarkan urutan baris, mulai dari 0. Namun, kita tetap bisa menetapkan indeks sendiri jika diperlukan.
Kolom
Kolom adalah label yang digunakan untuk mengidentifikasi setiap kolom dalam DataFrame. Setiap kolom memiliki label yang unik. Label kita bisa digunakan untuk mengakses atau memanipulasi data pada kolom tersebut.
Biasanya, label kolom mewakili jenis data atau variabel yang disimpan dalam kolom tersebut.
Nilai
Nilai adalah data sebenarnya yang disimpan dalam DataFrame. Nilai ini ditempatkan dalam sel yang dibentuk oleh perpotongan baris (indeks) dan kolom.
Nilai dalam DataFrame bisa berupa berbagai jenis data, seperti angka, string, dan lainnya.
Cara Manipulasi Data dalam DataFrame dengan Pandas
Berikut cara manipulasi data dalam DataFrame dengan Pandas. Mari kita mulai.
Pertama, untuk mengakses data dalam DataFrame, kita bisa menggunakan label indeks dan kolom. Misalnya, kita ingin mengakses data dalam kolom tertentu, kita menggunakan notasi berikut:
Di sini, 'nama_kolom' adalah label dari kolom yang ingin kita akses. Jika kita ingin mengakses baris tertentu, kita bisa menggunakan metode .loc atau .iloc.
Metode .loc dipakai untuk mengakses baris berdasarkan label indeks, sementara .iloc digunakan untuk mengakses baris berdasarkan posisi indeks.
Selain mengakses data, kita juga bisa memanipulasi data dalam DataFrame dengan berbagai cara. Misalnya, kita dapat mengubah nilai dalam DataFrame dengan langsung menetapkan nilai baru ke sel yang ingin diubah:
Kita juga bisa melakukan operasi matematika pada kolom atau baris, seperti penjumlahan, pengurangan, perkalian, dan lainnya. Sebagai contoh, untuk menambahkan 10 ke semua nilai dalam suatu kolom, kita melakukan hal berikut:
Pandas juga menyediakan banyak metode bawaan untuk memanipulasi data, seperti sort_values() untuk mengurutkan data, groupby() untuk mengelompokkan data, dan merge() untuk menggabungkan DataFrame.
Cara Membuat DataFrame dengan Berbagai Sumber Data
Pada dasarnya, Data bisa berasal dari berbagai sumber dan dalam berbagai format. Pandas menyediakan berbagai cara untuk membuat DataFrame dari data tersebut.
Mari kita lihat beberapa contohnya.
#1 Membuat DataFrame dari data mentah
Data dapat berasal dari berbagai sumber dan dalam berbagai format. Pandas menyediakan berbagai cara untuk membuat DataFrame dari data tersebut.
Dalam pembuatan DataFrame, sumber data mentah yang paling sering digunakan adalah list, dictionary, dan series. Berikut contoh pembuatan DataFrame dari masing-masing jenis sumber data tersebut.
Membuat DataFrame dari list
Jika kamu memiliki data mentah dalam bentuk list, kamu bisa membuat DataFrame langsung dari data tersebut.
Contoh:
Output:
Membuat DataFrame dari dictionary
Kamu juga bisa membuat DataFrame dari dictionary. Setiap pasangan key-value dalam dictionary akan menjadi sebuah kolom dalam DataFrame.
Contoh:
Output:
Membuat DataFrame dari series
Pandas series adalah struktur data satu dimensi yang bisa digunakan untuk menyimpan data dari berbagai tipe. Artinya, kamu dapat membuat DataFrame dari satu atau lebih objek series.
Contoh:
Output:
#2 Membuat DataFrame dari flat files
Flat files adalah sejenis dokumen yang dapat menampung data di dalamnya. Struktur data pada flat files umumnya berbentuk tabular yang terdiri dari baris dan kolom.
Contoh dari flat files yang umum kita kenal adalah Microsoft Excel, Comma Separated Value (CSV), dan Text File (.txt), ataupun jenis file lain yang bentuknya tabular. Flat files ini populer karena kemudahan dan fleksibilitasnya.
Namun perlu diingat, untuk data yang sangat besar, flat files mungkin kurang efisien karena limitasi dan ukurannya yang juga dapat membesar.
Membuat DataFrame dari file CSV
Untuk membuat DataFrame dari file CSV (Comma-Separated Values), kamu dapat menggunakan metode pd.read_csv().
Contoh:
Membuat DataFrame dari file Excel
Jika data berada dalam file Excel, kamu dapat menggunakan metode pd.read_excel().
Contoh:
Perlu diingat bahwa untuk membuat DataFrame dari file CSV atau Excel, kamu perlu memastikan file tersebut berada di direktori yang sama dengan skrip Python milikmu atau kamu perlu menyertakan path lengkap ke file tersebut.
Cara Menganalisis Data dengan DataFrame
Setelah memahami bagaimana membuat DataFrame dan memanipulasi data di dalamnya, mari kita pelajari cara menganalisis data dengan DataFrame.
Sebagai contoh, kita memiliki data berikut dan ingin melakukan tugas analisis data umum menggunakan DataFrame, seperti penyaringan data, agregasi DataFrame, perhitungan statistik, dan pemrosesan data lanjutan.
Penyaringan data
Pandas menyediakan beberapa metode yang memudahkan proses penyaringan data, yaitu menggunakan operator standar serta menggunakan .loc dan .iloc.
Penyaringan dengan operator standar
Dari data di atas, kamu hanya tertarik pada subset data tertentu. Misalnya, kamu memiliki DataFrame yang berisi penjualan produk dan hanya ingin melihat penjualan yang lebih besar dari nilai tertentu. Berikut caranya:
Output:
Metode .loc dan .iloc
Metode ini memungkinkan kamu melakukan penyaringan baris dan kolom berdasarkan label atau indeks.
.loc digunakan untuk penyaringan berdasarkan label data.
Contoh, kita ingin menampilkan semua produk yang penjualannya lebih dari 1000:
Output:
.iloc dipakai untuk penyaringan berdasarkan indeks data.
Misalnya, kita ingin menampilkan baris pertama sampai baris ketiga (ingat, indeks dimulai dari 0):
Output:
Agregasi DataFrame
Biasanya kita perlu melakukan operasi agregasi terhadap data kita.
Apabila kamu ingin mengetahui total penjualan semua produk atau mungkin rata-rata penjualan setiap produk, amu bisa menggunakan berbagai metode seperti .sum(), .mean(), .max(), .min(), atau .count() untuk melakukan hal tersebut.
Selain itu, Pandas juga menyediakan fungsi groupby yang bisa digunakan untuk melakukan agregasi berdasarkan kategori tertentu.
Sebagai contoh, kita memiliki DataFrame berikut yang berisi informasi tentang penjualan beberapa produk:
Jika kamu ingin mengetahui total penjualan semua produk, kamu bisa menggunakan metode .sum() sebagai berikut:
Namun, jika kamu ingin mengetahui total penjualan untuk setiap produk, kamu dapat menggunakan kombinasi dari metode groupby dan .sum():
Output:
Perhitungan statistik
Pandas menyediakan berbagai metode untuk perhitungan statistik dasar seperti mean (rata-rata), median, mode, standar deviasi, dan lainnya.
Contoh, untuk menghitung rata-rata penjualan, kamu menggunakan metode .mean().
Output dari kode di atas adalah 1300.0.
Menggabungkan DataFrame
Kamu juga bisa melakukan pemrosesan data lanjutan dengan DataFrame, seperti menggabungkan beberapa DataFrame, mengubah bentuk DataFrame, dan lainnya.
Contoh, kamu menggunakan metode .merge() untuk menggabungkan dua DataFrame.
Output:
Cara Eksport DataFrame
Setelah analisis data selesai, kita perlu menyimpan hasilnya ke dalam format file yang dapat digunakan lagi di masa mendatang atau dibagikan ke orang lain.
Berikut beberapa cara mengekspor DataFrame ke berbagai format file seperti CSV, Excel, SQL, dan lainnya.
Ke file CSV
Kita bisa menyimpan DataFrame ke dalam file CSV menggunakan metode .to_csv():
Ke file Excel
Untuk menyimpan DataFrame ke dalam file Excel, kita dapat menggunakan metode .to_excel():
Ke database SQL
Jika kita ingin menyimpan DataFrame ke dalam database SQL, kita bisa menggunakan metode .to_sql():
Pada contoh di atas, engine adalah objek yang merepresentasikan koneksi ke database dan if_exists='replace' berarti jika tabel 'hasil_analisis' sudah ada di database, tabel tersebut akan digantikan dengan DataFrame baru.
FAQ (Frequently Ask Question)
#1 Bagaimana cara menambahkan kolom baru dalam DataFrame?
Untuk menambahkan kolom baru dalam DataFrame, berikan nilai baru ke kolom tersebut. Misalnya, df['Kolom Baru'] = nilai.
#2 Bagaimana cara melakukan filtering pada DataFrame?
Filtering dalam DataFrame Python dapat dilakukan menggunakan boolean indexing. Misalnya, df[df['Nama Kolom'] > 100] akan memberikan semua baris di mana nilai di 'Nama Kolom' lebih besar dari 100.
#3 Bagaimana cara melakukan operasi matematika pada DataFrame?
Kamu bisa melakukan operasi matematika pada DataFrame sama seperti kamu melakukannya pada angka. Misalnya, df['Nama Kolom'] * 2 akan menggandakan setiap nilai dalam 'Nama Kolom'.
Kamu juga bisa menggunakan metode seperti .sum(), .mean(), .min(), .max(), dan sebagainya untuk perhitungan statistik.
Penutup
Kita telah mempelajari bagaimana DataFrame memudahkan dalam mengelola dan menganalisis data dalam format tabular. Menggunakan struktur yang terdiri dari baris dan kolom, serta kemampuan untuk menerima berbagai jenis sumber data, DataFrame menjadi alat yang efisien dan fleksibel untuk bekerja dengan data.
Secara keseluruhan, kita telah membahas banyak hal tentang DataFrame. Namun, pengetahuan yang kita bahas di artikel ini hanyalah ujung gunung es. Library Pandas memiliki lebih banyak fitur dan fungsi yang membantu kita memaksimalkan proses analisis data.
Masih ragu? Coba dulu 3 hari, GRATIS
di Full-Stack Trial Class!
Rasakan pengalaman belajar di RevoU Full-Stack Program: Kelas 100% LIVE, Mini portofolio lewat hands-on assignment, Bimbingan Team Lead & small group discussion. Kalau cocok, kamu bisa lanjut daftar Full Program dengan kesempatan Fast-Track (skip semua tes seleksi masuk, langsung ke tahap akhir!)
Masih ragu? Coba dulu 3 hari, GRATIS
di Full-Stack Trial Class!
Rasakan pengalaman belajar di RevoU Full-Stack Program: Kelas 100% LIVE, Mini portofolio lewat hands-on assignment, Bimbingan Team Lead & small group discussion. Kalau cocok, kamu bisa lanjut daftar Full Program dengan kesempatan Fast-Track (skip semua tes seleksi masuk, langsung ke tahap akhir!)
Masih ragu? Coba dulu 3 hari, GRATIS
di Full-Stack Trial Class!
Rasakan pengalaman belajar di RevoU Full-Stack Program: Kelas 100% LIVE, Mini portofolio lewat hands-on assignment, Bimbingan Team Lead & small group discussion. Kalau cocok, kamu bisa lanjut daftar Full Program dengan kesempatan Fast-Track (skip semua tes seleksi masuk, langsung ke tahap akhir!)