Machine Learning Optimization on Social Media Sentiment Data for Data Balance Using N-GRAM

Rizka Milandga Milenio; Jasman Pardede; Dea Kurniasih

doi:10.26760/jrh.v10i1.67-80

Machine Learning Optimization on Social Media Sentiment Data for Data Balance Using N-GRAM

Rizka Milandga Milenio, Jasman Pardede, Dea Kurniasih

Sari

ABSTRAK
Ketidakseimbangan kelas merupakan tantangan dalam klasifikasi sentimen pada data media sosial, yang menyebabkan model klasifikasi menjadi bias terhadap kelas mayoritas dan berkinerja buruk pada kelas minoritas. Penelitian ini mengusulkan pendekatan penyeimbangan data berbasis N-Gram untuk mengatasi masalah tersebut dan meningkatkan performa klasifikasi. Tiga model machine learning, yaitu XGBoost, Random Forest, dan Support Vector Machine (SVM), dievaluasi pada dataset yang tidak seimbang maupun seimbang menggunakan akurasi, presisi, recall, dan F1-score sebagai metrik evaluasi. Hasil eksperimen menunjukkan bahwa penyeimbangan data meningkatkan performa semua model tanpa menurunkan kemampuan generalisasi. SVM mencapai performa terbaik pada dataset seimbang dengan akurasi 0,86, presisi 0,87, recall 0,86, dan F1-score 0,86. XGBoost dan Random Forest juga menunjukkan peningkatan performa yang signifikan setelah penyeimbangan, menunjukkan kemampuan yang lebih baik dalam mendeteksi kelas minoritas. Secara keseluruhan, temuan ini menegaskan bahwa pendekatan penyeimbangan data berbasis N-Gram yang diusulkan efektif dalam mengurangi ketidakseimbangan kelas dan meningkatkan ketahanan serta keandalan model klasifikasi sentimen.

Kata kunci: klasifikasi sentimen, ketidakseimbangan kelas, n-gram, media sosial

ABSTRACT
Class imbalance is a challenge in sentiment classification of social media data, often causing classification models to be biased toward majority classes and perform poorly on minority classes. This study proposes an N-Gram-based data balancing approach to address this issue and improve classification performance. Three machine learning models, namely XGBoost, Random Forest, and Support Vector Machine (SVM), were evaluated on both imbalanced and balanced datasets using accuracy, precision, recall, and F1-score as evaluation metrics. The experimental results demonstrate that data balancing consistently enhances performance across all models without degrading generalization capability. Among the evaluated methods, SVM achieves the best performance on the balanced dataset, reaching an accuracy of 0.86, precision of 0.87, recall of 0.86, and F1-score of 0.86. XGBoost and Random Forest also show substantial performance improvements after balancing, indicating improved detection of minority sentiment classes. Overall, the findings confirm that the proposed N-Gram-based data balancing approach effectively mitigates class imbalance and improves the robustness and reliability of sentiment classification models.

Keywords: Sentiment Classification, Class Imbalance, N-Gram, Social Media

Kata Kunci

Sentiment Classification, Class Imbalance, N-Gram, Social Media

Teks Lengkap:

PDF (English)

Referensi

I. Athiyyah Rahma and L. Hulliyyatus Suadaa, “Penerapan Text Augmentation Untuk Mengatasi Data Yang Tidak Seimbang Pada Klasifikasi Teks Berbahasa Indonesia Studi Kasus: Deteksi Judul Clickbait Dan Komentar Hate Speech Pada Berita Online,” J. Teknol. Inf. dan Ilmu Komput., vol. 10, no. 6, pp. 1329–1340, 2023, doi: 10.25126/jtiik.2023107325.

C. Engineering, “(Journal of Computer Engineering, System and Science),” vol. 10, no. 1, pp. 136–148, 2025.

M. Abulaish and A. K. Sah, “A Text Data Augmentation Approach for Improving the Performance of CNN,” 2019 11th Int. Conf. Commun. Syst. Networks, COMSNETS 2019, pp. 625–630, 2019, doi: 10.1109/COMSNETS.2019.8711054.

S. A. Nugroho, S. Teknik, I. Fakultas, I. Komputer, and U. K. Soegijapranata, “COMPARISON OF SUPPORT VECTOR MACHINE ( SVM ), XGBOOST AND RANDOM FOREST FOR SENTIMENT ANALYSIS OF BUMBLE APP USER COMMENTS,” vol. 6, no. 1, pp. 32–46, 2022.

R. Hidayat, D. Mahdiana, and A. Fergina, “Comparative Analysis of Logistic Regression , SVM , Xgboost , and Random Forest Algorithms for Diabetes Classification,” vol. 7, no. 1, pp. 281–291, 2024, doi: 10.32493/jtsi.v7i1.38258.

N. Epriyanti, A. Meiriza, and D. Y. Hardiyanti, “Perbandingan Kinerja SVM , Random Forest dan XGBoost pada Aplikasi Access by KAI Menggunakkan ADASYN,” vol. 12, no. 5, pp. 733–742, 2025, doi: 10.30865/jurikom.v12i5.9134.

S. Rustad, G. F. Shidik, and I. Nlp, “Ingénierie des Systèmes d ’ Information Performance Evaluation of Text Embedding Models for Ambiguity Classification in Indonesian News Corpus : A Comparative Study of TF-IDF , Word2Vec , FastText BERT , and GPT,” vol. 30, no. 6, pp. 1469–1482, 2025.

J. Prasetya, “Leibniz : Jurnal Matematika,” vol. 2, pp. 11–22, 2022.

V. Kumar, G. S. Lalotra, P. Sasikala, and D. S. Rajput, “Addressing Binary Classification over Class Imbalanced Clinical Datasets Using Computationally Intelligent Techniques,” pp. 1–28, 2022.

G. L. (content published under the G. D. Site), “Datasets: Class-imbalanced datasets,” Google for Developers. [Online]. Available: https://developers.google.com/machine-learning/crash-course/overfitting/imbalanced-datasets

R. Siringoringo, “KLASIFIKASI DATA TIDAK SEIMBANG MENGGUNAKAN ALGORITMA SMOTE DAN k-NEAREST NEIGHBOR,” J. ISD, vol. 3, no. 1, pp. 44–49, 2018.

K. Ramdhan and K. Muslim, “Analisis Sentimen terhadap Toko Online menggunakan Naïve Bayes pada Media Sosial Twitter,” e-Proceeding Eng., vol. 5, no. 3, pp. 8141–8151, 2018, [Online]. Available: http://website.com

S. Nanda, D. Mualfah, and D. A. Fitri, “Analisis Sentimen Kepuasan Pengguna Terhadap Layanan Streaming Mola Menggunakan Algoritma Random Forest,” no. x, pp. 210–219, 2019.

P. P. E. Indarbensyah and N. Rochmawati, “Penerapan N-Gram menggunakan Algoritma Random Forest dan Naïve Bayes Classifier pada Analisis Sentimen Kebijakan PPKM 2021,” J. Informatics Comput. Sci., vol. 2, no. 04, pp. 235–244, 2021, doi: 10.26740/jinacs.v2n04.p235-244.

T. Hartina and A. Masri, “Pendeteksi Kesalahan Pengetikan Kata Non Baku pada Karya Tulis Menggunakan Metode N-Gram,” J. Inform., vol. 7, no. 1, pp. 77–84, 2020, doi: 10.31311/ji.v7i1.7916.

N. L. Models, “N-gram Language Models,” 2025.

M. I. H. A. D. Akbari, A. Novianty, and C. Setianingsih, “Analisis Sentimen Menggunakan Metode Learning Vector Quantization,” e-Proceeding Eng., vol. 4, no. 2, p. 2283, 2017, [Online]. Available: https://openlibrary.telkomuniversity.ac.id/pustaka/files/135356/jurnal_eproc/analisis-sentimen-menggunakan-metode-learning-vector-quantization.pdf

R. Guo, Z. Zhao, T. Wang, G. Liu, J. Zhao, and D. Gao, “Degradation state recognition of piston pump based on ICEEMDAN and XGBoost,” Appl. Sci., vol. 10, no. 18, pp. 1–17, 2020, doi: 10.3390/APP10186593.

K. Afifah, I. N. Yulita, I. Sarathan, B. Data, and U. Padjadjaran, “Sentiment Analysis on Telemedicine App Reviews using XGBoost Classifier,” 2021.

C. Science and P. City, “Bengali Sentiment Analysis of E-commerce Product Reviews using K-Nearest Neighbors,” pp. 27–28, 2021.

J. Informatika, B. N. Setiyono, N. A. Maori, and T. Tamrin, “Analisis Sentimen Ulasan Pengguna Aplikasi Threads di Google Play Menggunakan Algoritma XGBoost Dengan Pen- guatan SMOTE”.

M. Y. Khan, A. Qayoom, M. S. Nizami, M. S. Siddiqui, S. Wasi, and S. M. K. Raazi, “Automated Prediction of Good Dictionary EXamples ( GDEX ): A Comprehensive Experiment with Distant Supervision , Machine Learning , and Word Embedding-Based Deep Learning Techniques,” vol. 2021, 2021.

M. R. Givari, M. R. Sulaeman, and Y. Umaidah, “Perbandingan Algoritma SVM , Random Forest Dan XGBoost Untuk Penentuan Persetujuan Pengajuan Kredit,” vol. 16, pp. 141–149, 2022.

M. J. Setiawan, V. Rahmayanti, and S. Nastiti, “DANA App Sentiment Analysis : Comparison of XGBoost , SVM , and Extra Trees,” vol. 13, pp. 337–345, 2024.

S. P. Astuti, “Analisis sentimen berbasis aspek pada aplikasi tokopedia menggunakan lda dan naïve bayes,” 2020.

R. Dwiyansaputra, S. I. Murpratiwi, and A. Aranta, “ANALISIS SENTIMEN PENGGUNA PLATFORM MEDIA SOSIAL X PADA TOPIK PEMILIHAN PRESIDEN 2024 MENGGUNAKAN PERBANDINGAN MODEL,” vol. 9, no. 1, pp. 626–634, 2025.

DOI: https://doi.org/10.26760/jrh.v10i1.67-80

Refbacks

Saat ini tidak ada refbacks.

Alamat redaksi dan tata usaha:

Lembaga Penelitian dan Pengabdian Masyarakat Institut Teknologi Nasional
Fakultas, gedung 14 Lantai 3
Jl. PHH. Mustapa 23 Bandung 40124
Tlp. 022-7272215 Pes. 159, Fax. 022-7202892,
e-mail: hrekayasa@itenas.ac.id

STATISTIK PENGUNJUNG

Lihat Statistik

Jurnal ini terlisensi oleh Creative Commons Attribution-ShareAlike 4.0 International License.

Nama Pengguna
Kata Sandi
Ingat Saya