Ektraksi Fitur menggunakan Regular Expression pada Naïve Bayes Classifier untuk Analisis Sentimen

ACEP IRHAM GUFRONI, SITI YULIYANTI, EUIS NUR FITRIANI DEWI

Sari


Abstrak

Regular expression atau regex merupakan metode ekstraksi fitur yang menemukan substring pada sebuah teks yang cocok dengan harapan dapat meningkatkan kompleksitas waktu atau akurasi dengan melakukan preprocessing teks. Permasalahan praproses teks salah satunya kurang memperhatikan ektraksi fitur untuk proses klasifikasi sentiment, sehingga akurasi yang diperoleh kurang optiomal. Inovasi utama dari pendekatan penelitian ini yaitu mengembangkan pengklasifikasi teks berbasis ekspresi reguler sehingga menghasilkan performance kinerja algoritma yang baik. Tahapan penelitian ini, yaitu pengumpulan dataset lalu mengklasifikasikan sentiment dengan Naïve Bayes dan dalam praproses teks dilakukan ektraksi fiitur regular expression. Hasil rata-rata akurasi yang dihasilkan dengan ekstraksi ciri sebesar 88,05% dan yang tidak menggunakan 79,26% sehingga dapat disimpulkan bahwa penggunaan ekstraksi fitur pada praproses dapat meningkatkan akurasi sebesar 8,08% dari 1000 data latih dan 400 data uji.

 

Kata kunci: ekstraksi fitur, regex, regular expression, substring

Abstract

Regular expression or regex is a feature extraction method that finds matching substrings in a text in hopes of increasing time complexity or accuracy by preprocessing the text. One of the problems with text preprocessing is the lack of attention to feature extraction for the sentiment classification process, so the accuracy obtained is not optimal. This research stage begins with collecting a dataset and then classifying sentiment using Naïve Bayes, which pre-processes the text by extracting features with regular expressions. The main innovation of this research approach is to develop a text classifier based on regular expressions so as to produce good algorithm performance. The average accuracy produced by feature extraction is 88.05% and 79.26% is not used, so it can be concluded that the use of feature extraction in pre-processing can increase accuracy by 8.08% from 1000 training data and 400 test data.

Keywords:  extraction feature, regex, regular expression, substring



Teks Lengkap:

PDF

Referensi


Adinugroho, R. (2022). Perbandingan Rasio Split Data Training dan Data Testing menggunakan Metode LSTM dalam MemprediksiHarga Indeks Saham. Jakarta: UIN Syarif Hidayatulloh.

Alnaz, F. S., & Maharani, W. (2021). Analisis Emosi Melalui Media Sosial Twitter Dengan Menggunakan Metode Naïve Bayes dan Perbandingan Fitur N-gram dan TF-IDF. Laporan Penelitian Hal 1–14.

Apriani, R., Gustian, D., Program, S., Sistem, I., Putra, U. N., Indonesia, S., Raya, J., Kaler, C., 21, N., & Sukabumi, K. (2019). Analisis Sentimen dengan Naïve Bayes Terhadap Komentar Aplikasi Tokopedia. Jurnal Rekayasa Teknologi Nusa Putra, 6(1), 54–62. https://rekayasa.nusaputra.ac.id/article/view/86

Aprisadianti, S. N. (2021). Analisis Sentimen Twitter terhadap Content Creator Sisca Kohl Menggunakan Regular Expression. Makalah IF2211 Strategi Algoritma, 13519040.

Arini, A.-, Wardhani, L. K., & Octaviano, D.-. (2020). Perbandingan Seleksi Fitur Term Frequency & Tri-Gram Character Menggunakan Algoritma Naïve Bayes Classifier (Nbc) Pada Tweet Hashtag #2019gantipresiden. Kilat, 9(1), 103–114. https://doi.org/10.33322/kilat.v9i1.878

Asian, J., Dholah Rosita, M., & Mantoro, T. (2022). Sentiment Analysis for the Brazilian Anesthesiologist Using Multi-Layer Perceptron Classifier and Random Forest Methods. Jurnal Online Informatika, 7(1), 132. https://doi.org/10.15575/join.v7i1.900

Ayu, S., & Kemala, C. (2017). Penerapan Regular Expression dalam Opinion Mining pada Twitter untuk Survei Opini Politik. www.search.twitter.com

Cox, R. (2012). Regular Expression Matching with a Trigram Index. In Website. https://swtch.com/~rsc/regexp/regexp4.html

Cui, M., Bai, R., Lu, Z., Li, X., Aickelin, U., & Ge, P. (2019). Regular expression based medical text classification using constructive heuristic approach. IEEE Access, 7, 147892–147904. https://doi.org/10.1109/ACCESS.2019.2946622

Darwis, D., Siskawati, N., & Abidin, Z. (2021). Penerapan Algoritma Naive Bayes Untuk Analisis Sentimen Review Data Twitter Bmkg Nasional. Jurnal Tekno Kompak, 15(1), 131. https://doi.org/10.33365/jtk.v15i1.744

Gibney, D., & Thankachan, S. V. (2021). Text indexing for regular expression matching. Algorithms, 14(5). https://doi.org/10.3390/a14050133

Herlingga, A. C., Prismana, I. P. E., Prehanto, D. R., & Dermawan, D. A. (2020). Algoritma Stemming Nazief & Adriani dengan Metode Cosine Similarity untuk Chatbot Telegram Terintegrasi dengan E-layanan. Journal of Informatics and Computer Science (JINACS), 2(01), 19–26. https://doi.org/10.26740/jinacs.v2n01.p19-26

Legianto, S. (2019). Implementasi Text Mining Untuk Mendeteksi Hate Speech Pada Twitter. 60.

MZ, Y., Bororing Edwin, J., Rahayu, S., & Faharani, F. (2022). Analisis Sentimen Masyarakat terhadap Tindakan Vaksinasi Covid 19 Menggunakan Algortima Naïve Bayes Classifier. Smart Comp: Jurnalnya Orang Pintar Komputer, 11(3), 438–447. https://doi.org/10.30591/smartcomp.v11i3.3893

Nisa, A., Darwiyanto, E., & Asror, I. (2019). Analisis Sentimen Menggunakan Naive Bayes Classifier dengan Chi-Square Feature Selection Terhadap Penyedia Layanan Telekomunikasi. e-Proceeding of Engineering , 6(2), 8650.

Pratama Putra, A., Pratama, Y., Kharisma Krisnadi, E., Purnamasari, I., & Dwi Saputra, D. (2022). Text Mining untuk Sentimen Analisis dengan Metode Naïve Bayes, SMOTE, N-Gram dan AdaBoost Pada Twitter CommuterLine. Jurnal Sains Komputer & Informatika (J-SAKTI, 6(2), 961–973.

Raharjo, R. A., Sunarya, I. M. G., & Divayana, D. G. H. (2022). Perbandingan Metode Naïve Bayes Classifier Dan Support Vector Machine Pada Kasus Analisis Sentimen Terhadap Data Vaksin Covid-19 Di Twitter. Elkom : Jurnal Elektronika dan Komputer, 15(2), 456–464. https://doi.org/10.51903/elkom.v15i2.918

Setiawan, H., Utami, E., & Sudarmawan, S. (2021). Analisis Sentimen Twitter Kuliah Online Pasca Covid-19 Menggunakan Algoritma Support Vector Machine dan Naive Bayes. Jurnal Komtika (Komputasi dan Informatika), 5(1), 43–51. https://doi.org/10.31603/komtika.v5i1.5189

Talita, A. S., Nataza, O. S., & Rustam, Z. (2021). Naïve Bayes Classifier and Particle Swarm Optimization Feature Selection Method for Classifying Intrusion Detection System Dataset. Journal of Physics: Conference Series, 1752(1). https://doi.org/10.1088/1742-6596/1752/1/012021

Yuliyanti, S., & Sholihah, S. (2021). Pemodelan Analisis Sentimen Masyarakat terhadap Adaptasi Kebiasaan Baru (AKB) mengunakan Algoritma Naïve Bayes. MIND Journal, 6(2), 155–167. https://doi.org/10.26760/mindjournal.v6i2.155-167




DOI: https://doi.org/10.26760/mindjournal.v8i2.230-241

Refbacks

  • Saat ini tidak ada refbacks.


____________________________________________________________

ISSN (cetak) : 2338-8323  |  ISSN (elektronik) :  2528-0902

diterbitkan oleh:

Informatika Institut Teknologi Nasional Bandung

Alamat : Gedung 2 Jl. PHH. Mustofa 23 Bandung 40124

Kontak : Tel. 7272215 (ext. 181)  Fax. 7202892

Email : mind.journal@itenas.ac.id

____________________________________________________________

Statistik Pengunjung :

Flag Counter

  Web
Analytics Statistik Pengunjung

 Jurnal ini terlisensi oleh Creative Commons Attribution-ShareAlike 4.0 International License.

Creative Commons License