Di era digital seperti saat ini, keberadaan data menjadi sesuatu yang sangat penting. Dengan menggunakan big data, sebuah perusahaan akan terbantu untuk menentukan rencana bisnis, mengembangkan arah bisnisnya, dan memahami lebih dalam target market-nya.
Namun, data di dunia nyata, baik yang tersedia di internet ataupun hasil mengumpulkan sendiri, tidak bisa langsung diolah dan diproses menggunakan komputer. Ada proses yang harus dilakukan sebelum mengolah dan menggunakan data. Maka dari itu, ada proses yang dinamakan data preprocessing.
Lalu, bagaimanakah data preprocessing dilakukan? Pada artikel kali ini akan dibahas berbagai hal tentang data preprocessing, dari mulai pengertian, pentingnya data preprocessing, langkah-langkah melakukan data preprocessing, hingga contoh penerapannya. Jadi, langsung aja disimak artikelnya!
Baca juga: Data Mining: Pengertian, Proses, Manfaat, dan 3 Contoh Penerapannya
Apa itu data preprocessing?
Data preprocessing adalah bagian penting dalam proses data mining. (Sumber: Pexels)
Data preprocessing merupakan salah satu langkah dalam proses data mining dan analisis data. Pada proses ini, data mentah diambil dan dipersiapkan agar menjadi format yang dapat dipahami dan dianalisis oleh komputer dan machine learning. Hal itu perlu dilakukan karena data mentah di dunia nyata, baik dalam bentuk teks, gambar, atau video, itu berantakan. Sehingga akan menyulitkan komputer untuk memprosesnya.
Data preprocessing adalah langkah awal dalam pembuatan model machine learning dan kecerdasan buatan. Proses tersebut akan mengubah data menjadi format yang lebih mudah dan efektif untuk diproses, sehingga pembelajaran machine learning dan pengembangan kecerdasan buatan mengeluarkan hasil yang lebih akurat.
Baca juga: Machine Learning: Pengertian, Cara Kerja, dan 3 Metodenya!
Kenapa data preprocessing penting?
Data preprocessing membuat pembelajaran machine learning dan kecerdasan buatan lebih akurat. (Sumber: Pexels)
Dataset yang real time dan didapatkan dari dunia nyata biasanya berantakan. Bisa karena nilainya yang tidak lengkap, ada kesalahan input, atau memiliki duplikat satu sama lain. Kondisi data yang berantakan seperti itu mungkin dapat diidentifikasi dengan baik oleh manusia, tetapi jika untuk melatih machine learning dan kecerdasan buatan, kondisi data yang berantakan dapat membuat hasil yang tidak maksimal.
Machine learning dan kecerdasan buatan bekerja sangat optimal ketika data yang disajikan relevan dengan algoritma yang sudah dirancang. Data preprocessing, yang termasuk data wrangling, transformasi data, data reduction, feature selection, dan data scaling, membantu restrukturisasi data mentah menjadi bentuk data yang sesuai dengan algoritma. Dengan begitu, akan mengurangi daya pemrosesan dan waktu yang diperlukan untuk melatih machine learning dan kecerdasan buatan.
Maka dari itu, dalam data analysis, data science, atau pengembangan kecerdasan buatan memerlukan data preprocessing. Tujuannya tidak lain, agar model yang nantinya dihasilkan dapat optimal dan dapat memberikan insight untuk kebutuhan bisnis.
Baca juga: Artificial Intelligence (AI): Definisi, Cara Kerja, dan Contohnya
4 Langkah melakukan data preprocessing
Terdapat beberapa langkah dalam data preprocessing. (Sumber: Pexels)
Saat melakukan data preprocessing, ada 4 langkah yang bisa kamu lakukan untuk menghasilkan data yang siap diolah. Keempat langkah tersebut akan dibahas secara detail di bawah ini.
1. Data cleaning
Data cleaning atau membersihkan data merupakan langkah awal dalam data preprocessing. Tujuan dari data cleaning ini adalah untuk menyeleksi data dan membuang data yang berpotensi mengurangi akurasi machine learning dan kecerdasan buatan. Pada tahap ini, kamu harus mengatasi data yang bermasalah.
Beberapa masalah yang biasa terjadi pada dataset adalah sebagai berikut:
- Missing value, yaitu ketika ada nilai yang hilang pada dataset. Misalnya, dalam satu row table data, ada satu sel yang tidak memiliki nilai. Maka untuk mengatasinya, kamu bisa abaikan row yang tidak lengkap jika dataset dirasa sangat banyak. Namun, jika kamu tidak bisa mengabaikannya, kamu bisa isi secara manual dengan mengacu ke berbagai referensi.
- Noisy data, yaitu ketika data berisi nilai-nilai yang salah atau anomali. Kondisi itu disebut juga outlier. Untuk mengatasi noisy data, ada beberapa teknik yang dapat dilakukan, diantaranya:
- Binning, yaitu metode dengan membagi data ke beberapa partisi, kemudian partisi-partisi tersebut ditangani secara tersendiri. Kemudian, dari semua partisi data itu dicari nilai mean, median, atau nilai batas yang sudah ditentukan.
- Regression, yaitu suatu metode dengan memprediksi nilai pada data menggunakan persamaan regresi linier. Metode ini dapat digunakan jika hanya ada satu atribut independen.
- Clustering, yaitu suatu metode dengan membuat grup atau cluster dari data yang memiliki nilai serupa. Nilai-nilai yang tidak masuk ke cluster dapat dianggap sebagai noisy data dan dapat dihapus.
- Inconsistent data, yaitu kondisi ketika nilai-nilai yang ada pada data tidak konsisten. Sama seperti mengatasi noisy data, metode binning, regression, dan clustering dapat diterapkan untuk mengatasi inconsistent data.
2. Data integration
Data integration atau integrasi data adalah tahap untuk menggabungkan data dari berbagai sumber menjadi satu kesatuan data yang lebih besar. Saat menggabungkan data tersebut, kamu harus mengecek dan memastikan bahwa data yang datang dari berbagai sumber itu punya format yang sama. Misalnya, ada data yang memuat tanggal, di dataset A, format penulisannya hari-bulan-tahun, tetapi di dataset B, penulisannya bulan-hari-tahun. Maka ketika kedua dataset digabungkan, harus diubah ke format yang sama.
Pada proses data integration ini kamu harus melakukan beberapa hal, yaitu:
- Memastikan data memiliki format dan atribut yang sama.
- Menghapus atribut yang tidak dibutuhkan dari semua sumber data.
- Mendeteksi nilai data yang konflik.
Baca juga: Mengenal Gerbang Logika Mulai dari Pengertian, Fungsi, Jenis, beserta Simbolnya
3. Data transformation
Langkah berikutnya setelah melakukan data integration adalah data transformation. Langkah ini dilakukan agar data yang sudah terkumpul dari berbagai sumber tersebut menjadi seragam. Dalam data transformation, kamu bisa mengubah struktur data, format data, atau nilai data sedemikian rupa sehingga menghasilkan dataset yang sesuai untuk proses mining atau sesuai dengan algoritma yang sudah kamu rancang.
Langkah yang dapat dilakukan saat data transformation adalah sebagai berikut:
- Agregation, yaitu langkah untuk menggabungkan semua data dalam format yang seragam.
- Normalization, yaitu langkah untuk mengubah data ke dalam skala yang teratur, sehingga dapat membandingkannya dengan lebih akurat.
- Feature selection, yaitu langkah untuk menentukan variabel apa saja yang paling penting untuk analisismu. Variabel ini yang nantinya digunakan untuk melatih model machine learning atau kecerdasan buatan.
- Discreditization, yaitu langkah untuk mengumpulkan data ke dalam interval yang lebih kecil. Misalnya, saat menghitung latihan harian rata-rata, dibandingkan kamu menggunakan menit dan detik secara rinci, kamu bisa mengelompokkannya menjadi 0-15 menit, 15-30 menit, dan seterusnya.
- Concept hierarchy generation, yaitu langkah untuk menambahkan hierarki baru di dalam dataset. Misalnya, di dalam dataset berisi ayam dan bebek, maka kamu bisa menambahkan hierarki baru untuk menggabungkan keduanya, yaitu unggas.
4. Data reduction
Langkah terakhir dalam data preprocessing adalah data reduction atau pengurangan data. Langkah ini bertujuan untuk mengurangi jumlah sampel data yang diambil. Namun, perlu diperhatikan juga kalau data yang kamu buang tidak akan mengubah hasil analisis data.
Misalnya, data yang kamu butuhkan adalah berupa teks dari ucapan manusia. Jika ucapan yang menjadi sampel datamu berlebihan, maka kamu bisa berfokus pada apa yang paling relevan untuk kebutuhanmu dan membuang sisanya.
Saat melakukan data reduction, ada 3 teknik yang bisa diterapkan, diantaranya:
- Attribute selection, yaitu dengan mengombinasikan tag atau feature, sehingga data bisa lebih sederhana lagi. Misalnya, pada dataset ada tags laki-laki/perempuan dan professor. Kamu bisa menggabungkan kedua tags tersebut menjadi profesor laki-laki/profesor perempuan.
- Numerosity selection, yaitu merepresentasikan data sebagai model atau persamaan seperti model regresi. Pemodelan ini akan menghemat beban penyimpanan data dan transmisi data.
- Dimensionality reduction, yaitu teknik pengurangan jumlah fitur yang berulang pada dataset.
Baca juga: Apa Itu Database? Berikut Pengertian, Manfaat, Jenis, serta Fungsinya
Contoh data preprocessing
Untuk data yang sangat banyak, data preprocessing harus menggunakan teknik komputasi. (Sumber: Pexels)
Misalkan kamu punya sebuah dataset tentang pemain bola yang berisi 3 variabel, yaitu nama, umur, klub. Pada contoh pertama, kamu dapat melihat bahwa row 2 dan 3 ada kesalahan pada klub.
Nama | Umur | Klub |
Cristiano Ronaldo | 37 | Manchester United |
Lionel Messi | 35 | Barcelona |
Aubameyang | 33 | Arsenal |
Karim Benzema | 34 | Real Madrid |
Untuk mengatasinya, kamu bisa menggunakan teknik data cleaning, yaitu dengan membuang data yang salah, sehingga dataset kamu sekarang adalah sebagai berikut.
Nama | Umur | Klub |
Cristiano Ronaldo | 37 | Manchester United |
Karim Benzema | 34 | Real Madrid |
Namun, jika data dirasa terlalu sedikit, maka kamu bisa mengatasi data yang salah dengan melakukan data transformation. Pada kasus ini, kamu bisa mengubahnya secara manual. Sehingga dataset kamu sekarang adalah sebagai berikut.
Nama | Umur | Klub |
Cristiano Ronaldo | 37 | Manchester United |
Lionel Messi | 35 | PSG |
Aubameyang | 33 | Barcelona |
Karim Benzema | 34 | Real Madrid |
Setelah datanya diperbaiki, kamu bisa melakukan data reduction dengan mengurutkan berdasarkan usia. Sehingga dataset kamu sekarang adalah sebagai berikut.
Nama | Umur | Klub |
Cristiano Ronaldo | 37 | Manchester United |
Lionel Messi | 35 | PSG |
Karim Benzema | 34 | Real Madrid |
Aubameyang | 33 | Barcelona |
Dengan demikian, dataset kamu telah selesai melalui data preprocessing dan siap untuk diolah lebih lanjut. Jika data yang kamu miliki lebih besar lagi, tahap data preprocessing ini dapat dilakukan menggunakan teknik komputasi yang lebih canggih untuk memudahkan dan mempercepat proses pengerjaannya.
Baca juga: 7 Cara Efektif Belajar Data Science beserta Online Course Terbaiknya
Itulah pembahasan mengenai data preprocessing, dari mulai pengertian, manfaat, langkah-langkah melakukannya, hingga contoh melakukan data preprocessing. Jika kamu berminat menjadi seorang data analyst atau data scientist, maka kamu harus akrab dengan data preprocessing ini, karena akan menjadi bagian dari pekerjaanmu.
Selain itu, jika kamu sedang mencari pekerjaan sebagai data analyst atau data scientist, kamu bisa mendapatkannya di EKRUT. Cukup dengan registrasi dan melengkapi profilmu, kamu bisa mendapatkan pekerjaan, bahkan tanpa apply ke perusahaan-perusahaan, lho! Jadi, sign up EKRUT sekarang juga!
Sumber:
- algorit.ma
- v7labs.com
- techtarget.com
- monkeylearn.com