lifelong learner — urip iku urup, currently working on accenture.

Cara Membangun Data Warehouse dengan Konsep yang Tepat dan Benar

0
Degananda.com -

Pada dunia komputer, data warehouse yang juga biasa disingkat dengan kata DW, DWH atau EDW (Enterprise data warehouse) adalah sebuah sistem yang digunakan untuk proses pembuatan report (reporting) dan analisis data (data analisis).

data warehouse adalah proses utama (core) dalam pembuatan BI(business intelligance), yakni sistem kecerdasan untuk membantu pembuat keputusan diperusahaan.

Data warehouse merupakan sebuah pusat data dan proses otomasi yang mengintegrasikan data dari beberapa sumber untuk dapat diolah menjadi informasi yang penting bagi perusahaan. Data warehouse menyimpan data dan informasi terkini maupun terdahulu (historical).

Cara Membangun Data Warehouse dengan Tepat dan Benar

datawarehouse_4_key_23JPG.JPG
empat kunci utama dalam membangun datawarehouse

 

terdapat empat kunci utama yang harus diterapkan dalam membangun datawarehousing. Yakni pre-processingm,  staging, master dan reporting.

Langkah 1 – Pre Processing

pre-processing_data.JPG

secara harfiah pre processing berarti persiapan pemrosesan sebelum masuk ke prosesm pemrosesan utama.

tidak semua data yang masuk pada datawarehouse memilikis struktur yang standar sehingga siap untuk diintegrasikan dengan data-data lainnya.

sebagai contoh apabila sistem yang digunakan meliputi area IoT(Intenet of things), maka data yang akan masuk pada datawarehouse tidak akan memiliki struktur yang tetap. ini dikarenakan setiap sensor yang dipasang mempunyai struktur data telemetri yang berbeda-beda.

Sehingga, proses pertama yang dilakukan pada datawarehouse adalah pre-processing untuk memastikan setiap data yang masuk pada datawarehouse memiliki format yang sesuai dengan spesifikasi dari sistem DWH itu sendiri. Proses penyesuaian data ini biasannya melalui langkah ETL (Extract, transform load).

Extract (E) berarti melakukan ekstrasi data tersebut, transform(T) berarti mengubah struktur data sesuai dengan spesifikasi DWH dan terahir load(L) memasukan data tersebut ke storage untuk proses selanjutnya.

ETL ini tidak hanya terbatas pada proses pre-processing tetapi di langkah-langkah selanjutnya seperti staging, master dan reporting juga tetap menggunakan konsep ET. Sehingga ETL adalah proses dasar dalam data warehousing.

contoh data yang dapat dilakukan pre-processing :

  • data csv ataupun excel
  • melakukan parsing data json data storage bus
  • data dari storage account : blob
  • dan lain sebagainnya (pada intinnya semua data yang masuk harus melalui proses pre-processing).

setelah proses pre-processing selesai maka data tersebut akan dimasukan pada suatu storage(contohnya pada azure adalah azure data lake) sebelum dimasukan ke DWH(data warehouse).

Langkah 2 – Staging

load_ke_datawarehousing_staging.JPG
memasukan data pada data warehouse berdasarkan kategori tertentu.

proses kedua adalah staging, yakni memasukan data tersebut pada data warehouse.  Ilustrasinnya adalah seperti memasukan kontainer yang diangkut truck ke dalam gudang yang sudah berbentuk box-box kecil atau telah dikelompokan berdasarkan jenis material tertentu (bill of material).

bayangkan sebuah truk yang menangkut container. Container ini merupakan data yang sebelumnya telah dilakukan pre-processing. Kemudian truk ini masuk ke dalam gudang dan melakukan loading atas container itu.

Pada saat proses loading, data yang berada dicontainer itu akan diekstrak satu per satu ataupun batch dan kemudian akan disimpan di bagian-bagian tertentu sesuai dengan kategorinnya. Inilah yang disebut sebagai proses staging.

biasannya pada proses staging, data hanya dikelompokan berdasarkan entitasnya tanpa mengubah nama variabel , nama kolom ataupun isi dari data tersebut.

contohnya pada implementasi IoT (internet of things) terhadap bisnis logistics maka staging data dapat dikelompokan seperti berikut ini :

  1. data order – kelompok data terkait detail dari order seperti : trip, order, rute dan lain sebagainya.
  2. data telemetri – kelompok data atas semua informasi telemetri dari sensor-sensor yang digunakan

Langkah 3 – Master

Master_data.JPG
data akan disesukan dengan data model di entitas-entitas yang terdapat pada datawareohuse.

pada staging, ibaratnya data masih dalam box-box besar dengan pengelompokan tertentu. Pada master, isi dari box-box tersebut di olah dan di pilah untuk dimasukan ke wadah yang lebih spesifik dan terstruktur

berbeda dengan proses staging yang masih menggunakan nama variabel asli dari sumber data. Pada proses master ini, data-data yang telah masuk pada DWH akan di olah dengan menggunakan data model yang telah didefinisikan dalam DWH itu sendiri.
Sehingga, nama variabel, tipe data atau bahkan isi data akan disesuaikan dengan data model yang ada pada data warehouse.

proses pengolahan pada proses staging ke master biasannya meliputi hal-hal dibawah ini :

  1. melakukan standarisasi format. Contohnya, data pada iot biasannya memiliki timezone yang berbeda apabila sensor tersebut dipasang diberbagai wilayah. Sehingga timezone ini perlu distandarisasi. Biasannya akan diubah ke format UTC.
  2. melakukan pembulatan pada desimal dengan standar. Ingat bahwa pada staging, semua data masih merupakan data mentah, sehingga tingkat pembulatan desimal bisa jadi berbeda.
  3. standarisasi capital. terdapat data yang menggunakan camelCase, PerfectCase, Title Case atau bahkan Underline_Case. Hal-hal seperti ini sangat penting untuk di standarisasi sesuai dengan data model yang dimiliki pada staging.
  4. penyesuaian data model. ini dapat meliputi proses splitting data menjadi beberapa kolom (jika dibutuhkan)

hal yang perlu dipastikan dalam proses master ini adalah tingkat kesesuaikan data dengan data model dan kebersihana dari data tersebut. Sebagai seorang data engineer ini adalah tujuan utama saat memproses data dari staging ke master.

Seluruh data harus sesuai dengan standar yang diterapkan pada datawarehouse.

Langkah 4 – Reporting

reporting_datawarehouse.JPG
data pada master adalah baseline data untuk diproses menjadi report ataupun analytics

Pada langkah master, maka seluruh data dari staging telah dilakukan proses cleaning , strukturisasi data model yang sesuai dengan aturan data warehouse dan standarisasi format data/tipe data.

kualitas data report sangat bergantung pada tiga proses sebelumnya, yakni pre-processing, staging dan master.

Maka selanjutnya, data dari master telah siap untuk diolah sehingga menjadi sebuah report dengan melalui proses slice and dice ataupun teknik lain yang dapat digunakan untuk membuat report.

Data report ini dapat dibangun berdasarkan berbagai hal, contohnya berdasarkan customer, berdasarkan business unit, berdasarkan user dan lain sebagainnya. Sesuai dengan kebutuhan perusahaan.

 

 

 

(Visited 18 times, 1 visits today)
Please follow and like us:

Leave a Reply