Rancang Bangun Mesin Crawler di Instagram dan Pinterest untuk Kebutuhan Data pada Riset Visual

HALIMATUS SA'DYAH, WIDI SARINASTITI, REZA R RAMADHAN

Sari


ABSTRAK

Media sosial memberikan bonus berupa data yang dapat dikelola menjadi informasi yang bermanfaat. Dalam penelitian ini, kami mengembangkan mesin crawler untuk media sosial Instagram dan Pinterest. Mesin crawler ini digunakan sebagai infrastruktur pendukung untuk mengambil data di media sosial. Data yang dihasilkan oleh mesin crawler selanjutnya digunakan sebagai bahan riset visual untuk merancang kemasan produk bagi konsumen menengah ke atas. Hasil uji coba menunjukkan bahwa penggunaan Apache MesOS dapat mempercepat proses crawling dari 30 jam menjadi 1 jam. Dalam hal seleksi data, pada Pinterest, mesin crawler ini dapat mencapai akurasi hingga 100%. Sementara itu, pada Instagram, nilai Presisi tidak stabil dan berada pada rentang 34.8% hingga 90.0%. Sedangkan nilai recall dan akurasinya konsisten di bawah 70%. Hal ini menunjukkan bahwa arsitekturr mesin crawler sudah sesuai untuk menyelesaikan permasalahan. Namun, perbaikan masih dibutuhkan dari sisi algoritma seleksi agar nilai Presisi, Recall dan Akurasi pada Instagram dapat ditingkatkan lagi.

Kata kunci: Media Sosial, Riset Visual, Mesin Crawler, Infrastruktur Big Data

ABSTRACT

Social media gives us a huge number of data to be analyzed and sends us useful knowledge. In this paper, we develop a crawler machine for Instagram and Pinterest as an infrastructure of social media based visual research. We conduct the visual research to design product package for consumers from the middle class and upper class. The crawler machine is developed using Apache Kafka, Apache Spark, and Apache MesOS The evaluation result shows us that Apache MesOS can speed up data processing from 30 hours to one hour. In term of data selection, this machine can achieve 100% accuracy on Pinterest. Meanwhile, on Instagram, the precision is unstable between 34.8% to 90.0%. On the other hand, the recall and the accuracy on Instagram are consistently below 70%. Based on the evaluation result, we conclude that the machine performs well in term of time efficiency. However, we need to improve the selection algorithm so that the precision, the recall and the accuracy on Instagram can be increased.

Keywords: Social Media, Visual Research, Crawler Machine, Big Data Infrastructure


Teks Lengkap:

PDF


DOI: https://doi.org/10.26760/mindjournal.v4i1.24-37

Refbacks

  • Saat ini tidak ada refbacks.


____________________________________________________________

ISSN (cetak) : 2338-8323   |  ISSN (elektronik) :   2528-0902 

diterbitkan oleh :

Informatika Institut Teknologi Nasional Bandung

Alamat : Gedung 2 Jl. PHH. Mustofa 23 Bandung 40124

Kontak : Tel. 7272215 (ext. 181)  Fax. 7202892

Email : mind.journal@itenas.ac.id

____________________________________________________________

Statistik Pengunjung :

  Flag Counter

  Web
Analytics Statistik Pengunjung

 Jurnal ini terlisensi oleh Creative Commons Attribution-ShareAlike 4.0 International License.

Creative Commons License