4 Cara Mencari Nilai Mean dengan Python

Dalam bidang data analytics, kemampuan untuk mengolah dan memahami informasi menjadi kunci utama. Python, sebagai salah satu bahasa pemrograman yang paling banyak digunakan, menawarkan berbagai alat untuk menjawab kebutuhan tersebut.

Salah satu konsep dasar namun fundamental dalam analisis data adalah penghitungan rata-rata, atau dalam istilah Python disebut "mean". Fungsi mean bukan sekedar operasi matematika sederhana; ini adalah cara untuk memahami tren, pola, dan informasi tersembunyi dalam kumpulan data kita.

Artikel berikut akan membawa kamu menjelajahi bagaimana Python memudahkan proses penghitungan mean, melalui library yang efisien dan sintaksnya mudah dipahami. Yuk, simak!

Syntax Python Mean

Dalam Python, fungsi mean dapat digunakan melalui berbagai library, tergantung pada jenis data dan konteks penggunaannya. Untuk data sederhana, kita bisa menggunakan library statistics, sedangkan untuk data yang lebih kompleks, seperti dataset dalam bentuk tabel atau ketika bekerja dengan array numerik besar, Pandas dan NumPy menjadi pilihan yang lebih sesuai.

Untuk menggunakan fungsi mean di Pandas, pertama-tama kamu perlu mengimpor library tersebut:

import pandas as pd

Setelah mengimpor Pandas, kamu bisa menggunakan fungsi mean() untuk menghitung rata-rata dari sebuah Series atau kolom dalam DataFrame.

Cara dan Contoh Penggunaan Mean di Python

Berikut beberapa cara dan contoh penggunaan mean di Python:

#1 Menggunakan library Pandas

Pandas menyediakan struktur data dan fungsi analisis data yang kaya, termasuk kemampuan untuk menghitung mean dari dataset. Library ini sangat berguna ketika bekerja dengan data dalam format DataFrame, yang mirip dengan tabel dalam relational database atau spreadsheet.

Untuk menggunakannya, kamu perlu mengimpor library Pandas. Jika belum terinstal, kamu bisa menginstalnya menggunakan pip:

pip install pandas

Misalkan kita memiliki dataset nilai siswa seperti berikut dalam format tabel:

Kita ingin menghitung nilai rata-rata dari kolom Nilai.

Langkah pertama adalah membuat DataFrame dari data tersebut menggunakan Pandas. Berikut cara melakukannya:

import pandas as pd

# Membuat DataFrame dari data
data = {
    'Siswa': ['A', 'B', 'C', 'D', 'E'],
    'Nilai': [80, 90, 85, 95, 88]
}
df = pd.DataFrame(data)

# Menampilkan DataFrame
print(df)

Selanjutnya, untuk menghitung mean dari kolom Nilai, kita gunakan metode .mean() pada DataFrame tersebut:

# Menghitung mean dari kolom 'Nilai'
mean_value = df['Nilai'].mean()
print("Mean nilai siswa:", mean_value)

# Output Mean nilai siswa: 87.6

#2 Menggunakan Library NumPy

NumPy sangat efisien untuk operasi matematika pada array data. Berikut cara mencari mean menggunakan numpy.mean().

Misalkan kita memiliki tabel data sebagai berikut:

Kita ingin menghitung suhu rata-rata selama satu minggu tersebut.

Langkah pertama adalah mengimpor library NumPy dan membuat array dari data suhu. Kemudian, kita akan menggunakan fungsi np.mean() untuk menghitung mean dari array tersebut.

import numpy as np

# Membuat array NumPy dari data suhu
suhu = np.array([22, 24, 23, 25, 24, 26, 27])

# Menghitung mean dari array suhu
mean_suhu = np.mean(suhu)
print("Suhu rata-rata selama satu minggu:", mean_suhu)

# Output Suhu rata-rata selama satu minggu: 24.428571428571427

#3 Menghitung mean tanpa library khusus

Menghitung mean atau rata-rata dari sebuah dataset tanpa menggunakan library khusus seperti NumPy atau Pandas bisa dilakukan dengan menggunakan fungsi bawaan Python.

Cara ini melibatkan penggunaan fungsi sum() untuk menjumlahkan semua elemen dalam dataset dan fungsi len() untuk menentukan jumlah elemen tersebut, kemudian membagi total sum dengan jumlah elemen untuk mendapatkan mean.

Contoh tabel data

Misalkan kita memiliki dataset yang mencatat jumlah buku yang dibaca oleh lima orang dalam satu bulan:

Kita ingin menghitung jumlah rata-rata buku yang dibaca oleh kelima orang tersebut dalam satu bulan.

# Mendefinisikan dataset jumlah buku yang dibaca
jumlah_buku = [5, 7, 4, 9, 6]

# Menghitung mean menggunakan fungsi sum() dan len()
mean_buku = sum(jumlah_buku) / len(jumlah_buku)
print("Rata-rata jumlah buku yang dibaca:", mean_buku)

# Output Rata-rata jumlah buku yang dibaca: 6.2

#4 Kombinasi antara GROUP BY dan mean

Apabila kita perlu menghitung rata-rata tidak hanya untuk keseluruhan dataset, tetapi juga untuk kelompok-kelompok tertentu berdasarkan kategori, Pandas menyediakan cara yang sangat efisien dan intuitif untuk melakukan ini melalui kombinasi metode GROUP BY dan mean. Cara ini membantu mengelompokkan data berdasarkan satu atau lebih kategori, kemudian menghitung rata-rata untuk setiap kelompok tersebut.

Misalkan kita memiliki dataset yang mencatat penjualan produk di berbagai kota dan ingin mengetahui rata-rata penjualan untuk tiap produk.

Caranya adalah sebagai berikut:

import pandas as pd

# Membuat DataFrame contoh
data = {
    'Kota': ['Jakarta', 'Bandung', 'Jakarta', 'Bandung', 'Jakarta', 'Bandung'],
    'Produk': ['Buku', 'Buku', 'Pena', 'Pena', 'Penghapus', 'Penghapus'],
    'Penjualan': [100, 150, 200, 250, 300, 350]
}
df = pd.DataFrame(data)

# Mengelompokkan berdasarkan 'Produk' dan menghitung rata-rata 'Penjualan'
rata_rata_penjualan = df.groupby('Produk')['Penjualan'].mean()
print(rata_rata_penjualan)

# Output 
Produk
Buku        125.0
Pena        225.0
Penghapus   325.0
Name: Penjualan, dtype: float64

FAQ (Frequently Ask Question)

Dapatkah fungsi mean di Python menangani nilai NaN dengan Pandas?

Ya, fungsi mean di Python dapat menangani nilai NaN (Not a Number) dengan sangat baik ketika menggunakan library Pandas.

Pandas dirancang untuk bekerja dengan data yang mungkin memiliki nilai hilang atau tidak terdefinisi (seperti NaN) dan menyediakan cara mudah untuk menghitung statistik seperti mean sambil mengabaikan nilai-nilai tersebut.

Ketika kamu menggunakan metode .mean() pada DataFrame atau Series di Pandas, secara default metode ini akan mengabaikan nilai NaN dan menghitung mean dari data yang tersisa. Ini memudahkan penggunaan fungsi mean tanpa perlu melakukan data cleaning terlebih dahulu untuk menghilangkan atau mengganti nilai NaN.

Apakah ada perbedaan signifikan antara performa statistics.mean() dan numpy.mean()?

Pada dasarnya, terdapat perbedaan signifikan antara performa statistics.mean() dan numpy.mean(), terutama ketika berurusan dengan dataset besar. Ini disebabkan oleh perbedaan dalam implementasi dan tujuan penggunaan kedua library tersebut.

Performa statistics.mean()

Library statistics adalah bagian dari Python Standard Library yang dirancang untuk melakukan operasi statistik dasar, termasuk penghitungan mean. Fungsi ini ditulis murni dalam Python dan dirancang untuk bekerja dengan data dalam jumlah yang relatif kecil atau untuk penggunaan yang tidak memerlukan optimasi performa tinggi.
Karena implementasinya yang murni dalam Python, statistics.mean() mungkin tidak seefisien numpy.mean() dalam hal kecepatan, terutama saat mengolah dataset besar.

Performa numpy.mean()

Library NumPy dioptimalkan untuk komputasi numerik dan bekerja sangat baik dengan array besar. NumPy menggunakan implementasi yang lebih dekat ke level hardware, dengan sebagian besar operasinya ditulis dalam C dan Fortran. Ini membuat NumPy sangat cepat dan efisien untuk operasi matematika serta statistik, baik pada array maupun matriks besar.
numpy.mean() secara khusus dioptimalkan untuk komputasi vektorisasi, memungkinkan operasi dilakukan pada seluruh array sekaligus, bukan melalui iterasi elemen per elemen. Proses ini menghasilkan peningkatan performa yang signifikan dibandingkan pendekatan iteratif yang digunakan oleh statistics.mean().