Tutorial Pandas DataFrame di Python untuk Pemula 2025

DataFrame adalah struktur data tabular dasar yang terdiri dari baris dan kolom. Begini cara penggunaannya!

Data Analytics

RevoU Staff

Mau Belajar

Data Analytics

Belajar di RevoU! Dapatkan skill digital paling in-demand langsung dari praktisi terbaik di bidangnya. Kelas online 100% LIVE, 1:1 career coaching, dan akses ke Community Hub dengan 12500+ member selamanya untuk support perkembangan karir kamu!

Daftar Full Program

Coba Dulu Gratis

Selalu ada informasi berharga di balik setiap data; cerita tentang kebiasaan konsumen, tren bisnis, dan wawasan penting lainnya yang membantu kita membuat keputusan bisnis lebih baik.

Namun, bagaimana kita bisa menggali cerita ini? Salah satu caranya yaitu dengan library Python yang disebut Pandas dengan komponen utamanya, DataFrame.

Di artikel ini, kita akan menjelajahi konsep DataFrame secara mendalam, belajar bagaimana membuat, memanipulasi, dan menganalisis data menggunakan DataFrame. Selamat membaca!

Apa itu DataFrame Pandas?

DataFrame adalah struktur data tabular dasar yang terdiri dari baris dan kolom. DataFrame berfungsi untuk menyimpan data dalam format grid yang dapat diubah-ubah, dengan fleksibilitas yang sangat besar.

Gambaran sederhananya, DataFrame mirip dengan tabel di Excel. Setiap baris dan kolom memiliki label yang bisa kita gunakan untuk mengakses dan memanipulasi data.

Lalu, apa hubungannya dengan Pandas? Nah, di sinilah peran utama Pandas.

Pandas adalah library di Python yang dipakai untuk bekerja dengan DataFrame. Melalui Pandas, kamu bisa lebih mudah memanipulasi, mengorganisir, dan membersihkan data.

Keuntungan utama dari DataFrame adalah efisiensi dalam memanipulasi dan menganalisis data. Dengan DataFrame, kamu dapat memfilter data, melakukan operasi aritmatika, melakukan agregasi data, dan banyak lainnya. Semuanya dilakukan dengan beberapa baris kode saja.

Struktur DataFrame

Struktur DataFrame terdiri dari tiga komponen utama, yaitu indeks, kolom, dan nilai.

Indeks

Indeks adalah label yang digunakan untuk mengidentifikasi setiap baris dalam DataFrame. Setiap baris memiliki indeks yang unik. Kita bisa menggunakan indeks ini untuk mengakses atau memanipulasi data pada baris tersebut.

Secara default, Pandas akan menetapkan indeks berdasarkan urutan baris, mulai dari 0. Namun, kita tetap bisa menetapkan indeks sendiri jika diperlukan.

Kolom

Kolom adalah label yang digunakan untuk mengidentifikasi setiap kolom dalam DataFrame. Setiap kolom memiliki label yang unik. Label kita bisa digunakan untuk mengakses atau memanipulasi data pada kolom tersebut.

Biasanya, label kolom mewakili jenis data atau variabel yang disimpan dalam kolom tersebut.

Nilai

Nilai adalah data sebenarnya yang disimpan dalam DataFrame. Nilai ini ditempatkan dalam sel yang dibentuk oleh perpotongan baris (indeks) dan kolom.

Nilai dalam DataFrame bisa berupa berbagai jenis data, seperti angka, string, dan lainnya.

Cara Manipulasi Data dalam DataFrame dengan Pandas

Berikut cara manipulasi data dalam DataFrame dengan Pandas. Mari kita mulai.

Pertama, untuk mengakses data dalam DataFrame, kita bisa menggunakan label indeks dan kolom. Misalnya, kita ingin mengakses data dalam kolom tertentu, kita menggunakan notasi berikut:

dataframe['namakolom']

Di sini, 'nama_kolom' adalah label dari kolom yang ingin kita akses. Jika kita ingin mengakses baris tertentu, kita bisa menggunakan metode .loc atau .iloc.

Metode .loc dipakai untuk mengakses baris berdasarkan label indeks, sementara .iloc digunakan untuk mengakses baris berdasarkan posisi indeks.

dataframe.loc['labelindeks']
dataframe.iloc[indeks]

Selain mengakses data, kita juga bisa memanipulasi data dalam DataFrame dengan berbagai cara. Misalnya, kita dapat mengubah nilai dalam DataFrame dengan langsung menetapkan nilai baru ke sel yang ingin diubah:

dataframe['namakolom']['labelindeks']=nilaibaru

Kita juga bisa melakukan operasi matematika pada kolom atau baris, seperti penjumlahan, pengurangan, perkalian, dan lainnya. Sebagai contoh, untuk menambahkan 10 ke semua nilai dalam suatu kolom, kita melakukan hal berikut:

dataframe['namakolom'] = dataframe['namakolom']+10

Pandas juga menyediakan banyak metode bawaan untuk memanipulasi data, seperti sort_values() untuk mengurutkan data, groupby() untuk mengelompokkan data, dan merge() untuk menggabungkan DataFrame.

Cara Membuat DataFrame dengan Berbagai Sumber Data

Pada dasarnya, Data bisa berasal dari berbagai sumber dan dalam berbagai format. Pandas menyediakan berbagai cara untuk membuat DataFrame dari data tersebut.

Mari kita lihat beberapa contohnya.

#1 Membuat DataFrame dari data mentah

Data dapat berasal dari berbagai sumber dan dalam berbagai format. Pandas menyediakan berbagai cara untuk membuat DataFrame dari data tersebut.

Dalam pembuatan DataFrame, sumber data mentah yang paling sering digunakan adalah list, dictionary, dan series. Berikut contoh pembuatan DataFrame dari masing-masing jenis sumber data tersebut.

Membuat DataFrame dari list

Jika kamu memiliki data mentah dalam bentuk list, kamu bisa membuat DataFrame langsung dari data tersebut.

Contoh:

import pandas as pd

data = [['Ali', 25] , [ 'Budi', 30] , ['Citra', 35]]
df = [[ 'Ali', 25], ['Budi', 30], [ 'Citra', 35]]
pd.DataFrame(data, columns=['Nama''Usia'])

print(df)

Output:

Membuat DataFrame dari dictionary

Kamu juga bisa membuat DataFrame dari dictionary. Setiap pasangan key-value dalam dictionary akan menjadi sebuah kolom dalam DataFrame.

Contoh:

import pandas as pd

data = {'Nama': ['Ali', 'Budi', ‘Citra'], 'Usia': [25, 30, 35]}
df = pd.DataFrame(data)

print(df)

Output:

Membuat DataFrame dari series

Pandas series adalah struktur data satu dimensi yang bisa digunakan untuk menyimpan data dari berbagai tipe. Artinya, kamu dapat membuat DataFrame dari satu atau lebih objek series.

Contoh:

import pandas as pd

nama = pd. Series (['Ali', 'Budi', 'Citra'])
usia = pd. Series ([25, 30, 35])

df = pd. DataFrame ({ 'Nama':nama, 'Usia:usia})

print(df)

Output:

#2 Membuat DataFrame dari flat files

Flat files adalah sejenis dokumen yang dapat menampung data di dalamnya. Struktur data pada flat files umumnya berbentuk tabular yang terdiri dari baris dan kolom.

Contoh dari flat files yang umum kita kenal adalah Microsoft Excel, Comma Separated Value (CSV), dan Text File (.txt), ataupun jenis file lain yang bentuknya tabular. Flat files ini populer karena kemudahan dan fleksibilitasnya.

Namun perlu diingat, untuk data yang sangat besar, flat files mungkin kurang efisien karena limitasi dan ukurannya yang juga dapat membesar.

Membuat DataFrame dari file CSV

Untuk membuat DataFrame dari file CSV (Comma-Separated Values), kamu dapat menggunakan metode pd.read_csv().

Contoh:

import pandas as pd

df = pd.read_csv( 'file.csv')

print(df.head())

# Menampilkan 5 baris pertama

Membuat DataFrame dari file Excel

Jika data berada dalam file Excel, kamu dapat menggunakan metode pd.read_excel().

Contoh:

import pandas as pd

df = pd.read_excel('penjualan.xlsx')

# Menampilkan 5 baris pertama DataFrame
print(df.head))

Perlu diingat bahwa untuk membuat DataFrame dari file CSV atau Excel, kamu perlu memastikan file tersebut berada di direktori yang sama dengan skrip Python milikmu atau kamu perlu menyertakan path lengkap ke file tersebut.

Cara Menganalisis Data dengan DataFrame

Setelah memahami bagaimana membuat DataFrame dan memanipulasi data di dalamnya, mari kita pelajari cara menganalisis data dengan DataFrame.

Sebagai contoh, kita memiliki data berikut dan ingin melakukan tugas analisis data umum menggunakan DataFrame, seperti penyaringan data, agregasi DataFrame, perhitungan statistik, dan pemrosesan data lanjutan.

Penyaringan data

Pandas menyediakan beberapa metode yang memudahkan proses penyaringan data, yaitu menggunakan operator standar serta menggunakan .loc dan .iloc.

Penyaringan dengan operator standar

Dari data di atas, kamu hanya tertarik pada subset data tertentu. Misalnya, kamu memiliki DataFrame yang berisi penjualan produk dan hanya ingin melihat penjualan yang lebih besar dari nilai tertentu. Berikut caranya:

import pandas as pd
# Misalkan kita memiliki DataFrame berikut
data = ('Produk': ['Produk A', 'Produk B', ‘Produk C', ‘Produk D', 'Produk E'],
'Penjualan': [1000, 1500, 800, 2000, 1200]}
df = pd.DataFrame (data)

# Menyaring penjualan yang lebih besar dari 1000
df_filtered = df[df[ 'Penjualan'] > 1000]

print(df_filtered)

Output:

Metode .loc dan .iloc

Metode ini memungkinkan kamu melakukan penyaringan baris dan kolom berdasarkan label atau indeks.

.loc digunakan untuk penyaringan berdasarkan label data.

Contoh, kita ingin menampilkan semua produk yang penjualannya lebih dari 1000:

df_filtered_loc = df.loc[df['Penjualan'] > 1000]

print(df_filtered_loc)

Output:

.iloc dipakai untuk penyaringan berdasarkan indeks data.

Misalnya, kita ingin menampilkan baris pertama sampai baris ketiga (ingat, indeks dimulai dari 0):

df_filtered_iloc = df.iloc[0:3]

print(df_filtered_iloc)

Output:

Agregasi DataFrame

Biasanya kita perlu melakukan operasi agregasi terhadap data kita.

Apabila kamu ingin mengetahui total penjualan semua produk atau mungkin rata-rata penjualan setiap produk, amu bisa menggunakan berbagai metode seperti .sum(), .mean(), .max(), .min(), atau .count() untuk melakukan hal tersebut.

Selain itu, Pandas juga menyediakan fungsi groupby yang bisa digunakan untuk melakukan agregasi berdasarkan kategori tertentu.

Sebagai contoh, kita memiliki DataFrame berikut yang berisi informasi tentang penjualan beberapa produk:

import pandas as pd
data = {
	'Produk': ['Produk A', 'Produk B', 'Produk A', 'Produk C', 'Produk B', 'Produk A'],
	'Penjualan': [1000, 1500, 800, 2000, 1200, 500]
}
df = pd.DataFrame(data)

Jika kamu ingin mengetahui total penjualan semua produk, kamu bisa menggunakan metode .sum() sebagai berikut:

total_penjualan = df['Penjualan'].sum()
print (total_penjualan)

# Output: 7000

Namun, jika kamu ingin mengetahui total penjualan untuk setiap produk, kamu dapat menggunakan kombinasi dari metode groupby dan .sum():

total_penjualan.per_produk = df. groupby ('Produk')['Penjualan'].sum()
print(total_penjualan.per_produk)

Output:

Perhitungan statistik

Pandas menyediakan berbagai metode untuk perhitungan statistik dasar seperti mean (rata-rata), median, mode, standar deviasi, dan lainnya.

Contoh, untuk menghitung rata-rata penjualan, kamu menggunakan metode .mean().

rata_rata_penjualan = df['Penjualan'].mean()

print(rata_rata_penjualan)

Output dari kode di atas adalah 1300.0.

Menggabungkan DataFrame

Kamu juga bisa melakukan pemrosesan data lanjutan dengan DataFrame, seperti menggabungkan beberapa DataFrame, mengubah bentuk DataFrame, dan lainnya.

Contoh, kamu menggunakan metode .merge() untuk menggabungkan dua DataFrame.

# Misalkan kita memiliki DataFrame lain berisi profit dari setiap produk
data_profit = {'Produk': ['Produk A', ‘Produk B', ‘Produk C’, 'Produk D', 'Produk E'],
			'Profit': [200, 300, 100, 500,250]}
df_profit = pd.DataFrame(data_profit)

# Menggabungkan df dan df_profit
df_full = pd.merge(df, df_profit, on= 'Produk’)

print(df_full)

Output:

Cara Eksport DataFrame

Setelah analisis data selesai, kita perlu menyimpan hasilnya ke dalam format file yang dapat digunakan lagi di masa mendatang atau dibagikan ke orang lain.

Berikut beberapa cara mengekspor DataFrame ke berbagai format file seperti CSV, Excel, SQL, dan lainnya.

Ke file CSV

Kita bisa menyimpan DataFrame ke dalam file CSV menggunakan metode .to_csv():

df.to_csv('hasil_analisis.csv', index=False)

Ke file Excel

Untuk menyimpan DataFrame ke dalam file Excel, kita dapat menggunakan metode .to_excel():

df.to_excel('hasil_analisis.xlsx', index=False)

Ke database SQL

Jika kita ingin menyimpan DataFrame ke dalam database SQL, kita bisa menggunakan metode .to_sql():

df.to_sql('hasil_analisis', engine, if_exists='replace')

Pada contoh di atas, engine adalah objek yang merepresentasikan koneksi ke database dan if_exists='replace' berarti jika tabel 'hasil_analisis' sudah ada di database, tabel tersebut akan digantikan dengan DataFrame baru.

FAQ (Frequently Ask Question)

#1 Bagaimana cara menambahkan kolom baru dalam DataFrame?

Untuk menambahkan kolom baru dalam DataFrame, berikan nilai baru ke kolom tersebut. Misalnya, df['Kolom Baru'] = nilai.

#2 Bagaimana cara melakukan filtering pada DataFrame?

Filtering dalam DataFrame Python dapat dilakukan menggunakan boolean indexing. Misalnya, df[df['Nama Kolom'] > 100] akan memberikan semua baris di mana nilai di 'Nama Kolom' lebih besar dari 100.

#3 Bagaimana cara melakukan operasi matematika pada DataFrame?

Kamu bisa melakukan operasi matematika pada DataFrame sama seperti kamu melakukannya pada angka. Misalnya, df['Nama Kolom'] * 2 akan menggandakan setiap nilai dalam 'Nama Kolom'.

Kamu juga bisa menggunakan metode seperti .sum(), .mean(), .min(), .max(), dan sebagainya untuk perhitungan statistik.

Penutup

Kita telah mempelajari bagaimana DataFrame memudahkan dalam mengelola dan menganalisis data dalam format tabular. Menggunakan struktur yang terdiri dari baris dan kolom, serta kemampuan untuk menerima berbagai jenis sumber data, DataFrame menjadi alat yang efisien dan fleksibel untuk bekerja dengan data.

Secara keseluruhan, kita telah membahas banyak hal tentang DataFrame. Namun, pengetahuan yang kita bahas di artikel ini hanyalah ujung gunung es. Library Pandas memiliki lebih banyak fitur dan fungsi yang membantu kita memaksimalkan proses analisis data.