Bagi kamu yang bergelut dalam dunia big data analytics, pasti akan bertemu dengan istilah ETL. Agar semakin paham dengan istilah ETL, berikut adalah informasi selengkapnya dan hubungannya dengan big data.
Apa itu ETL? Ini pengertiannya
Sistem ini adalah dasar dari pengolahan data - EKRUT
ETL atau Extract Transform Load adalah proses integrasi data yang menggabungkan data dari berbagai sumber ke dalam satu penyimpanan yang konsisten dan dimuat ke dalam gudang data atau sistem lainnya.
Singkatnya, sistem ETL adalah dasar dari pengolahan data, khususnya big data.
ETL pertama kali diperkenalkan pada tahun 1970-an untuk mengintegrasikan proses pemuatan data ke dalam superkomputer untuk dianalisis lebih lanjut. Sejak akhir 1980 hingga pertengahan 200, ETL menjadi proses utama untuk membuat gudang data yang mendukung aplikasi business intelligence (BI).
Di masa sekarang, ETL lebih direkomendasikan untuk menyimpan data yang lebih kecil dan tidak memerlukan pembaruan terlalu sering. Alternatifnya, kamu bisa menggunakan data integrasi lain, seperti ELT, CDC, dan virtualisasi data untuk mengolah data real time dan selalu berubah.
Bagaimana cara kerja ETL?
Cara kerja ETL terdiri dari 3 langkah - EKRUT
Ada tiga langkah yang bisa kamu lakukan untuk menyusun proses ETL dan membuat data terintegrasi dari sumber ke tujuan. Sesuai dengan namanya, cara kerja ETL adalah ekstraksi data, transformasi data, dan pemuatan data.
Langkah 1: ekstraksi data
Sebagian besar perusahaan mengelola data dari berbagai sumber dan menggunakan beberapa alat analisis untuk membuat business intelligence. Namun, ada juga bisnis yang hanya bergantung pada satu jenis data atau sistem.
Jika ingin membuat strategi data yang kompleks berfungsi, data yang digunakan harus bisa bergerak bebas di antara sistem dan aplikasi.
Data harus diekstrak terlebih dahulu dari sumbernya sebelum dipindahkan ke tempat yang lain. Pada langkah pertama proses ETL ini, data terstruktur dan tidak terstruktur diimpor dan dikonsolidasikan ke dalam satu wadah penyimpanan.
Data mentah dapat diekstraksi dari berbagai sumber berikut ini:
- Database yang ada dan legacy system.
- Cloud, hybrid, dan on-premises environments.
- Aplikasi penjualan dan pemasaran.
- Mobile devices dan apps.
- CRM systems.
- Data storage platforms.
- Data warehouses.
- Analytics tools.
Langkah 2: transformasi
Setelah tahap ekstraksi selesai, data perlu dipindahkan ke sistem target atau ke sistem perantara untuk diproses lebih lanjut. Langkah selanjutnya adalah proses transformasi ETL yang akan membantumu membuat gudang data terstruktur.
Transformasi ETL merupakan pembersihan dan mempersiapkan agregasi untuk analisis. Langkah ini sangat penting dalam proses ETL karena membantu memastikan data yang akan diolah sepenuhnya siap dan kompatibel.
Proses transformasi ETL terbagi menjadi beberapa proses sebagai berikut:
- Pembersihan: data yang tidak konsisten dihilangkan.
- Standardisasi: memasang aturan pemformatan ke kumpulan data.
- Deduplikasi: data yang sama dibuang atau dikecualikan.
- Verifikasi: data yang tidak dapat digunakan dihapus dan anomali ditandai.
- Pengurutan: data diatur menurut jenisnya.
- Tugas lainnya - aturan tambahan yang dapat meningkatkan kualitas data.
Langkah 3: loading/memuat data.
Loading adalah proses terakhir dalam ETL, yaitu memuat data yang sudah diubah ke tujuan baru. Data tersebut dapat dimuat sekaligus (full load) atau interval terjadwal (incremental load).
Full loading
Untuk full loading ETL, semua yang berasal dari transformasi menjadi catatan baru dan unik di gudang data. Full load berguna untuk menghasilkan kumpulan data yang tumbuh secara eksponensial dan sulit untuk diatur.
Incremental loading
Metode yang ini kurang komprehensif, tetapi lebih mudah dikelola. Incremental loading membandingkan data yang masuk dengan data yang sudah ada. Dan hanya akan menghasilkan data tambahan jika ditemukan data yang unik dan baru.
Itulah pengertian dan bagaimana cara kerja ETL yang wajib kamu ketahui saat belajar tentang big data analytics.
Sumber:
- ibm.com
- talend.com
- medium.com