lifelong learner — urip iku urup, currently working on accenture.

Cara Mengambil Data dari Website Lain dengan Metode Web Srapping

1
Degananda.com -

web_scrapping_

Data adalah suatu informasi yang telah diolah. Data sangat menjadi bagian yang sangat penting sebagai dasar untuk menyelesaikan permasalahan atau dalam mengambil suatu keputusan.

Terdapat berbagai macam data – data yang bertebaran di internet yang sangat bermanfaat apabila di integrasikan dengan suatu sistem. Data ini dapat diambil dengan teknik web scrapping

Web scrapping adalah proses ekstraksi data yang berasal dari suatu website melalui protokol HTTP (hypertext transfer protokol) ataupun HTTPS. Proses pengambilan data ini dapat dilakukan secara manual ataupun otomatis.

Cara Mengambil Data dari Website Lain dengan Metode Web Srapping

1.Pengambilan data dari website lain secara manual

Proses manual pengambilan data dari website lain melibatkan campur tangan manusia. Contoh langkahnya adalah sebagai berikut ini

web_scrapping_manual.jpg
pengambilan data dari website secara manual

proses pertama pengabilan data website secara manual diawali dengan seseorang (manusia) yang membuka website tujuan (yang akan diambil datannya) dengan menggunakan web browser. Setiap browser(pada pc/laptop) secara default memiliki fitur untuk melakukan extraksi. Pada browser schrome cukup tekan tombol dibawah ini

ctrl + s

Permasalahan yang terjadi pada metode pengambilan data manual ini adalah ketika jumlah website tujuan yang akan diambil datannya berjumlah banyak. Bayangkan jika terdapat lebih dari 1000++ website yang dituju dan proses pengambilan data dilakukan secara manual. Tenaga yang harus di keluarkan sangat banyak dan tidak efektif ataupun efisien.

2.Pengambilan data dari website lain secara otomatis dengan metode web scrapping.

metode kedua dibuat untuk memecahkan masalah yang terjadi pada pengambilan data secara manual di suatu website. Teknik web scrapping akan melibatkan suatu program yang berjalan otomatis di jam tertentu dengan tujuan mengambil data diwebsite tertentu yang biasa disebut sebagai web crawler 

web crawler dapat dibuat dengan berbagai macam bahasa pemrograman seperti nodejs , python, c++ dan lain-lain (tidak terbatas pada suatu bahasa pemrograman tertentu)

Program scrapping ini akan berjalan untuk mengambil dan mengekstrak seluruh ataupun sebagai data dari suatu website sesuai dengan tujuannya. Data yang telah diambil ini biasannya akan di simpan pada database, file excel ataupun plain text biasa.

simah diagram dibawah ini untuk melihat program web crawler untuk pengambilan data dari website (web scrapping).

web_scrapping_secara_otomatis.jpg
pengambilan data dari website secara otomatis

Langkah awal yang dilakukan oleh program web scrapping crawler adalah menginisisasi koneksi dengan website tujuan dengan menggunakan protokol http ataupun https.

dom_html.jpg
contoh DOM & HTML pada suatu website

Kemudian, seluruh data html dan dom yang ada pada website tujuan akan disimpan seluruhnya pada memory web scrapping crawler. Pada saat dom dan html ini tersimpan pada memory akan dilakukan analisa dan filtering terhadap isi dom. Tujuannya adalah untuk mengekstrak informasi-informasi penting yang diperlukan saja dalam project crawling tersebut.

terdapat berbagai macam library/SDK yang dapat dimanfaatkan untuk melakukan analisa dom diberbagia jenis bahasa pemrograman. Contoh pada nodejs yang populer adalah cheerio.

Sebagai contohnya pada dom tersebut, crawler hanya akan mengambil daftar artikel yang di tulis dan dipublikasikan oleh suatu website. Maka program scrapping crawler ini hanya perlu menyimpan bagian penting itu saja pada storage / database.

scrapping_hasil_ekestraksi_dan_filtering.jpg
scrapping akan mengambil dan menfilter data yang penting saja

Potongan dom diatas adalah data dom artikel yang dibutuhkan. Maka program scrapping hanya perlu mengolah potongan dom diatas. Berikut ini adalah hasil ekstraksi ahir dom diatas setelah diolah di dilakukan filter.

scrapping_hasil_ekestraksi_dan_filtering_hasil_ahir.jpg
Hasil ahir dari metode pengambilan data website dengan web scrapping crawler 

pada gambar diatas merupakan hasil ahir analisa dan filtering dom yang berupa informasi artikel yang dipublikasi oleh website tujuan. Setelah proses filtering dan analisa ini proses selanjutnya adalah menyimpan informasi diatas kedalam suatu database.

Dengan menggunakan metode ini hampir seluruh data yang ada dan dipublikasikan pada website dapat diambil secara massive(berskala luas) , otomatis dan sangat cepat

Simak ulasan berikutnya mengenai langah-langkah web scrapping dengan menggunakan nodejs.

(Visited 9 times, 1 visits today)
Please follow and like us:

Leave a Reply