Rancang Bangun Mesin Crawler di Instagram dan Pinterest untuk Kebutuhan Data pada Riset Visual
Sari
ABSTRAK
Media sosial memberikan bonus berupa data yang dapat dikelola menjadi informasi yang bermanfaat. Dalam penelitian ini, kami mengembangkan mesin crawler untuk media sosial Instagram dan Pinterest. Mesin crawler ini digunakan sebagai infrastruktur pendukung untuk mengambil data di media sosial. Data yang dihasilkan oleh mesin crawler selanjutnya digunakan sebagai bahan riset visual untuk merancang kemasan produk bagi konsumen menengah ke atas. Hasil uji coba menunjukkan bahwa penggunaan Apache MesOS dapat mempercepat proses crawling dari 30 jam menjadi 1 jam. Dalam hal seleksi data, pada Pinterest, mesin crawler ini dapat mencapai akurasi hingga 100%. Sementara itu, pada Instagram, nilai Presisi tidak stabil dan berada pada rentang 34.8% hingga 90.0%. Sedangkan nilai recall dan akurasinya konsisten di bawah 70%. Hal ini menunjukkan bahwa arsitekturr mesin crawler sudah sesuai untuk menyelesaikan permasalahan. Namun, perbaikan masih dibutuhkan dari sisi algoritma seleksi agar nilai Presisi, Recall dan Akurasi pada Instagram dapat ditingkatkan lagi.
Kata kunci: Media Sosial, Riset Visual, Mesin Crawler, Infrastruktur Big Data
ABSTRACT
Social media gives us a huge number of data to be analyzed and sends us useful knowledge. In this paper, we develop a crawler machine for Instagram and Pinterest as an infrastructure of social media based visual research. We conduct the visual research to design product package for consumers from the middle class and upper class. The crawler machine is developed using Apache Kafka, Apache Spark, and Apache MesOS The evaluation result shows us that Apache MesOS can speed up data processing from 30 hours to one hour. In term of data selection, this machine can achieve 100% accuracy on Pinterest. Meanwhile, on Instagram, the precision is unstable between 34.8% to 90.0%. On the other hand, the recall and the accuracy on Instagram are consistently below 70%. Based on the evaluation result, we conclude that the machine performs well in term of time efficiency. However, we need to improve the selection algorithm so that the precision, the recall and the accuracy on Instagram can be increased.
Keywords: Social Media, Visual Research, Crawler Machine, Big Data Infrastructure
Teks Lengkap:
PDFDOI: https://doi.org/10.26760/mindjournal.v4i1.24-37
Refbacks
- Saat ini tidak ada refbacks.
____________________________________________________________
ISSN (cetak) : 2338-8323 | ISSN (elektronik) : 2528-0902
diterbitkan oleh:
Informatika Institut Teknologi Nasional Bandung
Alamat : Gedung 2 Jl. PHH. Mustofa 23 Bandung 40124
Kontak : Tel. 7272215 (ext. 181)Â Fax. 7202892
Email : mind.journal@itenas.ac.id
____________________________________________________________
Statistik Pengunjung :
Jurnal ini terlisensi oleh Creative Commons Attribution-ShareAlike 4.0 International License.