top of page

Dataset

Dataset disimpan dan dianalisis oleh komputer untuk mendapatkan informasi. Ketahu jenis-jenisnya dan web penyedia dataset publik!

data-analyst

Pengertian Dataset

__wf_reserved_inherit

Dataset adalah kumpulan data terstruktur yang disimpan dan dianalisis oleh komputer untuk mendapatkan informasi.

Dataset biasanya ditulis dalam format tabel yang terdiri dari baris dan kolom. Setiap baris dalam dataset mewakili satu catatan, yang bisa berupa satu observasi atau entitas. Sedangkan kolom mewakili atribut atau variabel dari catatan tersebut, seperti usia, lokasi, atau pengukuran lainnya.

Kumpulan data ini digunakan dalam berbagai aplikasi data seperti analisis statistik, machine learning, dan database management. Keakuratan dan kebersihan dataset sangat penting karena kualitas data yang digunakan langsung memengaruhi hasil analisis atau model yang dihasilkan.

Dataset biasanya bersumber dari berbagai media seperti pengumpulan data secara manual, eksperimen, transaksi bisnis, atau dapat juga diambil dari data yang dihasilkan oleh sensor dan smart device lainnya.

Jenis-jenis Dataset

Jenis-jenis dataset bervariasi berdasarkan struktur dan kegunaannya, yang memengaruhi cara pengolahan dan analisis data. Dirangkum dari Tech Target, berikut beberapa tipe utama dari dataset:

#1 Numerik

Dataset numerik terdiri dari data yang diekspresikan dalam angka. Jenis dataset ini sering dipakai dalam analisis statistik dan matematik karena memungkinkan penggunaan operasi matematis.

Contoh dari dataset numerik termasuk pengukuran suhu, harga saham, atau jumlah penjualan.

#2 Bivariat

Dataset bivariat mengandung dua variabel dan digunakan untuk menganalisis hubungan antara dua fenomena. Misalnya, dataset yang mencatat tinggi badan dan berat badan orang dewasa dapat dimanfaatkan untuk mengeksplorasi korelasi antara kedua variabel tersebut.

#3 Multivariat

Berbeda dengan bivariat, dataset multivariat melibatkan tiga variabel atau lebih. Dataset jenis ini kompleks dan berfungsi untuk menganalisis hubungan antara banyak variabel sekaligus, seperti menggabungkan data demografis, konsumsi, dan preferensi pelanggan untuk segmentasi pasar.

#4 Kategorikal

Dataset kategorikal (juga dikenal sebagai kualitatif) mencakup data yang digolongkan berdasarkan kategori atau label, bukan angka. Contohnya termasuk jenis kelamin, jenis produk, atau kebangsaan. Data kategorikal sering digunakan untuk analisis klasifikasi atau pengujian hipotesis.

#5 Korelasi

Dataset korelasi dimanfaatkan untuk mengidentifikasi dan mengukur kekuatan hubungan antara dua atau lebih variabel. Data dalam dataset ini digunakan untuk menentukan apakah perubahan dalam satu variabel berkorelasi dengan perubahan dalam variabel lain, dan apakah korelasi tersebut positif, negatif, atau nol.

Web Penyedia Dataset Publik

Berikut beberapa web penyedia dataset publik terkemuka:

  • Kaggle: Kaggle adalah platform yang populer di kalangan data scientist dan machine learning developer. Selain menyediakan dataset, Kaggle juga mengadakan kompetisi data science di mana user dapat menguji kemampuan mereka dengan real project.
  • UCI Machine Learning Repository: ini adalah repository yang menyediakan dataset untuk komunitas machine learning. Repositori mencakup berbagai dataset yang telah dikategorikan berdasarkan tipe data, area subjek, dan tantangan analisis yang terlibat.
  • Google Dataset Search: tool ini membantu mencari dataset yang tersedia secara publik dari berbagai sumber di internet. Google Dataset Search bertindak sebagai mesin pencari khusus untuk menemukan dataset dari berbagai disiplin ilmu dan industri.
  • AWS Public Dataset Program: Amazon Web Services menawarkan program yang menyediakan dataset besar yang bisa diakses secara gratis untuk digunakan dalam analisis dan machine learning. Program ini memanfaatkan kekuatan cloud AWS untuk memudahkan pengolahan dataset besar.
  • Data.go.id: ini adalah portal data terbuka pemerintah Indonesia yang menyediakan berbagai dataset dari berbagai kementerian dan lembaga. Data yang tersedia mencakup berbagai sektor seperti kesehatan, pendidikan, keuangan, dan lain-lain. Portal ini bertujuan untuk meningkatkan transparansi dan memudahkan akses informasi publik.
  • Badan Pusat Statistik (BPS): BPS adalah lembaga pemerintah yang bertugas mengumpulkan dan menyajikan data statistik di Indonesia. Website BPS menyediakan akses ke berbagai data statistik, termasuk sensus penduduk, survei sosial ekonomi, dan data ekonomi makro.
  • OpenStreetMap Indonesia: OpenStreetMap Indonesia menyediakan data geospasial yang dapat diakses dan digunakan oleh umum. Data ini berguna untuk keperluan pemetaan dan analisis geografis.

Contoh Dataset

Berikut beberapa contoh dataset:

Tabel inventaris kantor

Tabel rekam medis

Tabel penjualan toko

FAQ (Frequently Asked Question)

Apa perbedaan antara data dan dataset?

Data adalah informasi mentah yang dapat berupa angka, kata, atau gambar, biasanya belum diorganisasi atau belum memiliki struktur tertentu. Data dapat muncul dalam bentuk individual maupun kolektif, dan dapat ditemukan dalam keadaan yang belum diproses atau telah diolah sebagian.

Di sisi lain, dataset adalah kumpulan data yang sudah terorganisasi, biasanya dalam format tabel atau database yang memiliki struktur baris dan kolom. Dataset menata data individual ke dalam format yang sistematis, memudahkan analisis dan pemrosesan lebih lanjut. Dataset mengatur data sedemikian rupa sehingga dapat dengan mudah diakses, dikelola, dimodifikasi, dan dianalisis oleh manusia atau algoritma komputer.

Secara singkat, data adalah unit dasar informasi, sedangkan dataset adalah struktur yang mengorganisasi dan mengelola kumpulan data tersebut untuk tujuan analisis atau pengolahan lebih lanjut.

Mulai karirmu dalam

data-analyst

Belajar di RevoU! Dapatkan skill digital paling in-demand langsung dari praktisi terbaik di bidangnya. Kelas online 100% LIVE, 1:1 career coaching, dan akses ke Community Hub dengan 6000+ member selamanya untuk support perkembangan karir kamu!

IKUT KURSUS GRATIS
bottom of page