lifelong learner — urip iku urup, currently working on accenture.

Skill Data Engineer yang Sedang Naik Daun dan Harus di Miliki pada Tahun 2020

0
Degananda.com -
data_engineer_2020_skillset_apa
data engineering = seni menyimpan dan mengelola data dari berbagai sumber data

Data Engineer adalah pekerjaan yang sedang naik daun pada tahun 2020 ini. Permintaan akan kebutuhan data engineer dari perusahaan semakin meningkat dari waktu ke waktu.

Utamannya data engineer membangun pipeline (alur proses) baik secara batch ataupun secara non-batch dari berbagai sumber data. Sebagai contoh data dapat berasal dari IoT Devices, Omni Channel ataupun ERP.

Data engineer memiliki peranan yang sangat vital (penting) dalam suatu perusahaan. Data engineer memiliki tanggung jawab untuk memastikan seluruh data(umumnya big data) yang ada diperusahaan tersebut dapat tersimpan dengan struktur yang baik serta siap untuk digunakan oleh data scientist maupun BI engineer untuk membangun analytics yang dapat membantu perusahaan.


Pipeline yang dibangun oleh data engineer akan melakukan ETL (Extract, transfrom and load). Extract berarti mengambil data dari berbagai sumber data yang ada. Transform berarti melakukan modifikasi data tersebut dengan menyesuaikan dengan kebutuhan perisahaan. Dan terahir, load berarti memasukan data ini ke data warehouse yang secara khusus dibangun untuk menyimpan big data.

Skill Data Engineer yang Sedang Naik Daun dan Harus di Miliki pada Tahun 2020

Berikut ini adalah beberapa skillset yang umumnya di miliki oleh data engineer dan dibutuhkan perusahaan agar dapat melakukan tugas utama mereka yakni membuat data pipeline.

skillset_populer_data_engineering_2020.png
6 skill yang sangat populer dikalangan data engineer karena demand yang besar.

sumber dari urutan data skillset diatas adalah dari tautan dibawah

https://towardsdatascience.com/most-in-demand-tech-skills-for-data-engineers-58f4c1ca25ab

Skill Set 1 untuk data engineer – Python & SQL

python_thumbnailsql_data_engineer.jpg

python dan SQL merupakan skill yang berada pada urutan 1 dan 2 yang paling banyak dibutuhkan oleh perusahaan. Python adalah bahasa pemrograman yang sangat populer untuk digunakan dalam pengolahan data.

Terdapat berbagai library yang telah tersedia untuk melakukan pengolahan data maupun informasi. library yang sangat penting harus dipelajari pada python adalah pandas (library untuk manipulasi data).

Python dan SQL ini seperti tidak terpisahkan. Python dapat digunakan untuk mengolah data(pengolahan lanjutan) yang diambil dengan operasi SQL query.

SQL merupakan kependekan dari structured query language, yakni perintah yang umumnya digunakan untuk melakukan operasi pada database (query). SQL merupakan query yang umum sehingga banyak sekali tools yang menggunakan SQL sebagai bahasa operasinya seperti : Apache Spark, Mysql, MSSQL, CosmosDB (dengan SQL API) dan lain sebagainnya.

Sklll set 2 untuk data engineer – Apache Spark

apache_spark.jpg

Pada urutan ketiga terdapat apache spark. Software apache spark berguna sebagai mesin analytics (analytics engine) yang dibangun secara khusus untuk mengolah big data (data dengan ukuran/volume yang sangat besar dengan traffic/velocity yang juga sangat besar.).

Pada apache spark telah terdapat modul – modul utama(built in) yang dapat membantu dalam mengolah big data seperti : modul untuk [1] streaming,  [2] SQL, [3] machine learning, [4] graph processing dan lain sebagainnya.

Skill set 3 untuk data engineer – AWS (Amazon Web Service) | Cloud Platform

aws_cloud_platform.jpg

dewasa ini, sudah sangat jarang sekali(meskipun masih ada) perusahaan yang masih menggunakan server on promise (server yang dihost pada jaringan internal perusahaan) sebagai server untuk data warehouse mereka.

Berdasarkan data dari  canalys AWS memiliki market share sebanyak 32% pada Q4 tahun 2019. Dibawahnya menyusul adalah azure dengan 17% market share ditahun yang sama.

Pada list tersebut, AWS merupakan cloud platform yang sangat populer digunakan serta banyak sekali perusahaan yang menggunakannya. Meski dilain sisi, juga banyak perusahaan yang menggunakan Azure, ali cloud dan lain sebagainnya. Tentunya ini sangat bergantung pada kebutuhan dan kondisi perusahaan.

Skill set 4 untuk data engineer – Java

java_logo

berdasrkan survey dari stackoverflow tahun 2019, java adalah bahasa pemrograman ya ng paling banyak dibicarakan di stackoverflow.

Java adalah bahasa pemrograman yang sangat populer karena telah ada sejak beberapa puluh tahun lalu dan masih digunakan hingga saat ini sebagai backend server, analytics bahkan masih juga banyak website yang menggunakan JSP (java server page).

Skill set 5 untuk data engineer – apache hadoop

apache_hadoop.jpg

apache hadoop dalam data engineer memiliki peranan untuk menyimpan data dan memproses data dalam ukuran besar (gigabyte hingga petabyte) dengan model MapReduce.

apache spark menggunakan memory sebagai media pemrosesan. Sedangkan apache hadoop menggunakan disk sebagai media pemrosesan melalui model MapReduce. Sehingga secara umum, apache spark lebih cepat dibanding dengan apache hadoop dalam pemrosesan data.

Melalui apache hadoop proses komputasi dapat dilakukan oleh multiple computer secara pararel dengan juga menggunakan proses clustering sehingga dapat memproses dan menganalisa data dengan cepat bersamaan (pararel).


Skill set 6 untuk data engineer – Apache hive, scala, kafka dan nosql

apache_kafka.jpgapache_hivejpg.jpg

ini adalah skill set yang memiliki kepopuleran urutan 7 kebawah berdasarkan data yang dilansir oleh towards science.

  • Apache hive : software data warehouse yang digunakan untuk mengelola dataset yang memiliki ukuran besar dengan menggunakan pendekatan/approach distributed storage (data di simpan pada storage yang berbeda-beda layaknya seperti hive/sarang lebah)
  • Scala : Bahasa pemrograman yang juga populer untuk memanipulasi data layaknya seperti python. Apache spark memiliki built in plugin untuk dapat menggunakan scala.
  • Apache kafka : seperti apache hive yang memiliki kemampuan distributed processing(kafka:distributed storage). Kafka dapat melakukan distributed streaming.
  • NoSQL : Database management system yang tidak menggunakan konsep relasi (relational). Sangat cocok untuk big data terutama untuk menyimpan data telematics pada iot yang memiliki bentuk tidak terstruktur antar satu sensor dengan sensor lainnya.

Kesimpulan

Berdasarkan data diatas, jika ingin menjadi seorang data engineer, langkah awal yang perlu dilakukan paling tidak adalah menguasai atau mempelajari skill set satu dan dua yakni : python, sql dan apache spark sebagai dasar kemampuan yang dimiliki.

tidak perlu mempelajari cloud platform secara spesifik (aws atau azure) karena itu akan tergantung dari karakteristik project tersebut – banyak pertimbangan (cost, kontrak bisnis, aturan/kebijakan pemerintah dan lain sebagainnya). Sebagai contoh, pada perusahaan miliki negara, cloud platform yang dipilih harus memiliki data center di indonesia.

 

 

 

 

 

 

 

 

(Visited 3 times, 1 visits today)
Please follow and like us:

Leave a Reply