Dalam dunia data mining dan profesi yang berkaitan dengan data science umum dikenal istilah dataset. Ilmu komputer dan teknologi informasi mengenal istilah ini untuk merujuk pada lebih dari satu variabel data dengan korelasinya masing-masing. Lantas, apa sih yang dimaksud dengan dataset ini? Mari kita simak ulasan lengkapnya berikut ini.
Baca juga: Apa itu Database? Berikut Pengertian, Manfaat, dan Jenisnya
Apa itu dataset?
Dataset merupakan kumpulan data yang telah terorganisasi dan umumnya bersifat paten untuk tiap input (Sumber: Pexels)
Dilansir IBM, dataset diartikan sebagai kumpulan daya atau dokumen yang berisi satu atau lebih catatan (record). Setiap kelompok record ini tadi disebut sebagai dataset dan memiliki peran untuk menyimpan informasi seperti catatan medis, asuransi, program, dan sistem data institusi. Dataset digunakan untuk menyimpan informasi yang dibutuhkan oleh aplikasi atau sistem operasi tertentu seperti sumber pemrograman, pustaka makro, atau variabel serta parameter sistem.
Dataset juga dapat didefinisikan sebagai kumpulan atau himpunan data yang disajikan dalam pola tabel. Setiap kolom dalam tabel data tersebut menggambarkan variabel tertentu sehingga dalam satu dataset terdapat beberapa variabel. Secara teknis, dataset merupakan bagian dari manajemen data. Sedangkan, nilai-nilai dari himpunan data ini disebut sebagai datum.
Secara teknis, dataset merupakan kumpulan item terkait yang dapat diakses secara individu atau dalam kombinasi pengelolaan tertentu sebagai satu kesatuan. Dataset dapat diatur ke dalam beberapa jenis struktur data. Contoh dataset dalam dunia bisnis bisa dilihat dari nama, gaji, informasi kontak karyawan, hingga angka penjualan, dan sebagainya.
Jika disimpulkan, dataset merupakan kumpulan data yang terurut dan diperoleh dari kumpulan informasi. Kumpulan informasi sendiri diperoleh dari pengamatan, pengukuran, studi, atau analisis hingga menjadi data. Data bisa berupa fakta, angka, nama, atau bahkan deskripsi. Oleh karena itu, dataset berkaitan erat dengan kegiatan data mining yang membantu para data scientist untuk menganalisis data menjadi suatu informasi koheren.
Baca juga: 10 Cara Menjadi Data Analyst Andal dan Informasi Gajinya
Perbedaan dataset dengan database
Database yang telah terorganisasi disebut dataset (Sumber: Pexels)
Meski terkesan serupa, namun sejatinya dataset berbeda dengan database atau basis data. Adapun perbedaan-perbedaan tersebut antara lain dapat dilihat dari tabel berikut.
Dataset | Database |
Kumpulan data terstruktur yang umumnya dikaitkan dengan kumpulan pekerjaan atau proyek unik | Kumpulan data terorganisasi yang disimpan sebagai beberapa dataset |
Umumnya satuan atau kelompok datanya tidak bisa diperbarui maupun diubah | Disimpan dan diakses secara elektronik dari sistem komputer dengan kemudahan akses, pembaruan, dan manipulasi |
Terdiri dari beberapa fakta pengukuran dan observasi | Terdiri dari berbagai tipe perencanaan, operasi, dan juga diperkuat oleh SQL |
Berorientasi terpisah dan dapat diakses secara offline |
Umumnya hanya bisa diakses dengan konektivitas komputasi dan berbasis penyimpanan seperti cloud |
Baca juga: Data Analyst: Pengertian, Gaji, Skills, Tools dan KPI
10 Web penyedia public dataset
Dataset dapat diakses lewat berbagai situs penyedia dataset baik dari dalam maupun luar negeri (Sumber: Pexels)
Untuk mempermudah kamu dalam mencari dataset, berikut ini adalah sepuluh situs penyedia dataset yang dapat mendukung proyek maupun pekerjaanmu.
1. Google Dataset Search
Salah satu situs populer untuk mencari dataset adalah Google Dataset Search. Kamu bisa mengaksesnya dengan mengklik tautan berikut ini. Google Dataset Search merupakan data-data yang dikumpulkan oleh Google untuk menyediakan sumber data eksternal beserta deskripsi dan pembaruan terkininya.
2. Datahub.io
Jika kamu ingin mencari dataset dengan fokus bisnis dan keuangan, kamu bisa mengaksesnya lewat Datahub.io. Kamu bisa mengakses sebagian besar dataset di sini secara gratis tanpa registrasi. Umumnya dataset yang tersedia berfokus pada bidang pasar saham, harga properti, inflasi, dan logistik.
3. Earth Data
Bagi kamu yang bekerja atau studi di bidang lingkungan maupun geografi, dataset dari Earth Data amat membantu. Kamu bisa mengakses data mengenai kebumian secara gratis tanpa registrasi dan kamu bisa menemukan berbagai hal seperti pengukuran cuaca, iklim, pemetaan vegetasi, hingga suhu laut dengan dataset ini.
Baca juga: Mengenal Data Mapping Mulai dari Benefit, Teknik, dan Tipenya
4. Global Health Observatory Data Repository
Selama pandemi, mungkin beberapa dari kamu ingin mencari tahu bagaimana data kesehatan di seluruh dunia. Nah, kamu bisa mengakses dataset kesehatan dunia lewat dataset rilisan World Health Organization ini dengan mengklik tautan berikut. Selain gratis dan tanpa registrasi, kamu juga bisa mengakses berbagai statistik terkait kesehatan dari seluruh dunia seperti malaria, HIV/AIDS, hingga tingkat vaksinasi lewat Global Health Observatory Data Repository.
5. Kaggle
Kaggle menyediakan berbagai data dan dapat diakses secara gratis namun perlu pendaftaran di depan. Kamu bisa mencari dataset di Kaggle lewat tautan berikut ini. Lewat Kaggle, kamu bisa mendapatkan berbagai data dari semua topik, bahkan suhu rerata harian di berbagai kota dapat ditemukan di Kaggle.
6. BFI Film Industry Statistics
Bagi kamu yang menggemari film dan mengaku diri sebagai sinefil dengan riset-riset terkait film, maka situs dataset dari British Film Institute ini tepat buat kamu. Selain dapat diakses secara gratis tanpa registrasi, kamu bisa menemukan berbagai angka box office di Inggris hingga demografi penonton untuk film-film Inggris yang bisa kamu analisis. Kamu bisa mengakses dataset ini lewat tautan berikut.
7. FBI Crime Data Explorer
Kali ini, bagi kamu yang mendalami ilmu kriminologi atau bekerja di bidang intelijen dan memerlukan dataset khusus, maka FBI Crime Data Explorer bisa menjadi rujukan tepat buat kamu. Kamu bisa mengakses segala informasi mengenai pelanggaran kriminal, kejahatan, dan narkoba lewat situs rilisan FBI ini dengan mengklik tautan berikut.
8. Open Data Jakarta
Bagi kamu yang tinggal di Jakarta dan sekitarnya, pemerintah DKI Jakarta memiliki dataset berisi berbagai informasi dengan akses mudah lewat Open Data Jakarta. Kamu bisa mengakses berbagai hal seperti indeks standar pencemaran udara (ISPU) dari berbagai tahun serta data-data lainnya.
9. Satu Data Indonesia
Untuk dataset nasional, kamu bisa mengakses Satu Data Indonesia lewat situsnya data.go.id. Lewat dataset ini kamu bisa mengakses data mengenai ekonomi dan industri, pembangunan daerah, pendidikan dan tenaga kerja, serta berbagai hal lain secara mudah.
10. Databoks Katadata
Selain situs milik pemerintah, kamu juga bisa mengakses berbagai dataset lewat Katadata dengan rilisan Databoks milik mereka. Kamu bisa mencari dan menemukan data dengan mengisi kata kunci, pilihan industri, sub industri, dan berbagai macam data dari berbagai sumber seperti dari Badan Pusat Statistik (BPS) dan sebagainya.
Baca juga: Data Scientist: Tanggung Jawab, Keahlian, dan Kisaran Gaji 2022
Itulah tadi berbagai hal mengenai dataset yang bisa kamu pelajari beserta contoh-contoh situs untuk kamu akses. Kamu akan lebih mudah melakukan analisis data atau pengumpulan data sekunder lewat kumpulan dataset ini.
Bagi kamu yang tengah mencari pekerjaan sesuai keahlianmu, EKRUT hadir sebagai muara bagi pencarianmu. EKRUT menyediakan berbagai informasi mengenai karier beserta potensi rekrutmen dari berbagai perusahaan di Indonesia sesuai kualifikasi yang kamu miliki. Kamu hanya perlu menyiapkan CV dan portofolio terbaik yang kamu punya lalu klik tautan di bawah ini untuk langsung mendaftar lewat EKRUT.
Sumber:
- ibm.com
- techtarget.com
- careerfoundry.com