Prediksi Penyakit Diabetes menggunakan Teknik Imputasi Missforest dan Klasifikasi LightGBM
Sari
Abstrak
Diabetes adalah salah satu penyakit kronis dengan grafik prevalensinya meningkat secara global. Penyakit ini disebabkan oleh gangguan metabolisme tubuh yang memengaruhi kadar gula darah, dan jika tidak ditangani sejak dini dapat menimbulkan komplikasi serius seperti stroke, gagal ginjal, kebutaan, hingga kematian. Penelitian ini mengembangkan model prediksi risiko diabetes berbasis klasifikasi biner menggunakan algoritma LightGBM yang dikombinasikan dengan teknik imputasi Missforest untuk menangani data yang hilang. Dataset yang digunakan berasal dari Pima Indian, tersedia secara publik di Kaggle. Tahapan pre-processing mencakup imputasi data hilang, penanganan outlier dengan Isolution Forest, pembagian data menjadi 80:20. Evaluasi model menunjukkan hasil akurasi sebesar 91,84% dan ROC AUC 0.9614. BMI menjadi faktor paling berpengaruh dalam prediksi yang diikuti oleh DiabetesPedigreeFunction dan Glucose.
Kata kunci: diabetes melitus, data mining, klasifikasi, LightGBM, missforest
Abstract
Diabetes mellitus is one of the most common chronic diseases, with a globally increasing prevalence. It is caused by metabolic disorders that affect blood glucose levels and, if not treated early, can lead to serious complications such as stroke, kidney failure, blindness, and even death. This research develops a diabetes risk prediction model based on binary classification using the LightGBM algorithm combined with the Missforest imputation technique to handle missing data. The dataset used is the publicly available Pima Indian dataset from Kaggle. The pre-processing stages include missing value imputation, outlier handling using Isolution Forest, an 80:20 data split. Model evaluation shows an accuracy of 91.84% and a ROC AUC 0.9614. BMI was found to be the most influential factor in the prediction, followed by DiabetesPedigreeFunction and Glucose.
Keywords: diabetes mellitus, data mining, classification, LightGBM, missforest
Teks Lengkap:
PDFReferensi
Alfebi, Fadlan Hamid, and Mila Desi Anasanti. 2023. “Improving Cardiovascular Disease Prediction by Integrating Imputation, Imbalance Resampling, and Feature Selection Techniques into Machine Learning Model.” IJCCS (Indonesian Journal of Computing and Cybernetics Systems) 17(1): 55. doi:10.22146/ijccs.80214.
Bemi, Windri Wucika, and Rani Nooraeni. 2019. “Dampak Redenominasi Terhadap Inflasi Indonesia: Penanganan Missing Menggunakan Metode Case Deletion, Pmm, Rf Dan Bayesian.” Indonesian Journal of Statistics and Its Applications 3(3): 272–86. doi:10.29244/ijsa.v3i3.360.
Candra Permana, Baiq Andriska, and Intan Komala Dewi Patwari. 2021. “Komparasi Metode Klasifikasi Data Mining Decision Tree Dan Naïve Bayes Untuk Prediksi Penyakit Diabetes.” Infotek : Jurnal Informatika dan Teknologi 4(1): 63–69. doi:10.29408/jit.v4i1.2994.
Demircioglu, Aydin. 2024. “Applying Oversampling before Cross-Validation Will Lead to High Bias in Radiomics.” Scientific Reports 14(1): 1–11. doi:10.1038/s41598-024-62585-z.
Derisma, D. 2020. “Perbandingan Kinerja Algoritma Untuk Prediksi Penyakit Jantung Dengan Teknik Data Mining.” Journal of Applied Informatics and Computing 4(1): 84–88. doi:10.30871/jaic.v4i1.2152.
FUADAH, YUNENDAH NUR, IBNU DAWAN UBAIDULLAH, NUR IBRAHIM, FAUZI FRAHMA TALININGSING, NIDAAN KHOFIYA SY, and MUHAMMAD ADNAN PRAMUDITHO. 2022. “Optimasi Convolutional Neural Network Dan K-Fold Cross Validation Pada Sistem Klasifikasi Glaukoma.” ELKOMIKA: Jurnal Teknik Energi Elektrik, Teknik Telekomunikasi, & Teknik Elektronika 10(3): 728. doi:10.26760/elkomika.v10i3.728.
Gholamy, Afshin, Vladik Kreinovich, and Olga Kosheleva. 2018. “Why 70 / 30 or 80 / 20 Relation Between Training and Testing Sets : A Pedagogical.” Departmental Technical Reports (CS) 1209: 1–6. https://scholarworks.utep.edu/cs_techrep.
Halabaku, Erblin, and Eliot Bytyci. 2024. “Overfitting in Machine Learning : A Comparative Analysis of Decision Trees and Random Forests.” doi:10.32604/iasc.2024.059429.
Hou, Fan, Zhi Xiang Cheng, Luo Yao Kang, and Wen Zheng. 2020. “Prediction of Gestational Diabetes Based on LightGBM.” ACM International Conference Proceeding Series: 161–65. doi:10.1145/3433996.3434025.
Hovi, Hovi Sohibul Wafa, Asep Id Hadiana, and Fajri Rakhmat Umbara. 2022. “Prediksi Penyakit Diabetes Menggunakan Algoritma Support Vector Machine (SVM).” Informatics and Digital Expert (INDEX) 4(1): 40–45. doi:10.36423/index.v4i1.895.
Maulidah, Nurlaelatul, Riki Supriyadi, Dwi Yuni Utami, Fuad Nur Hasan, Ahmad Fauzi, and Ade Christian. 2021. “Prediksi Penyakit Diabetes Melitus Menggunakan Metode Support Vector Machine Dan Naive Bayes.” Indonesian Journal on Software Engineering (IJSE) 7(1): 63–68. doi:10.31294/ijse.v7i1.10279.
Novianto, Anton, and Mila Desi Anasanti. 2023. “Autism Spectrum Disorder (ASD) Identification Using Feature-Based Machine Learning Classification Model.” IJCCS (Indonesian Journal of Computing and Cybernetics Systems) 17(3): 259. doi:10.22146/ijccs.83585.
Rufo, Derara Duba, Taye Girma Debelee, Achim Ibenthal, and Worku Gachena Negera. 2021. “Diagnosis of Diabetes Mellitus Using Gradient Boosting Machine (Lightgbm).” Diagnostics 11(9): 1–14. doi:10.3390/diagnostics11091714.
Septiana Rizky, Putri, Ristu Haiban Hirzi, and Umam Hidayaturrohman. 2022. “Perbandingan Metode LightGBM Dan XGBoost Dalam Menangani Data Dengan Kelas Tidak Seimbang.” J Statistika: Jurnal Ilmiah Teori dan Aplikasi Statistika 15(2): 228–36. doi:10.36456/jstat.vol15.no2.a5548.
Tomic, Dunya, Jonathan E. Shaw, and Dianna J. Magliano. 2022. “The Burden and Risks of Emerging Complications of Diabetes Mellitus.” Nature Reviews Endocrinology 18(9): 525–39. doi:10.1038/s41574-022-00690-7.
Tuntun, Ritham, Kusrini Kusrini, and Kusnawi Kusnawi. 2022. “Analisis Perbandingan Kinerja Algoritma Klasifikasi Dengan Menggunakan Metode K-Fold Cross Validation.” Jurnal Media Informatika Budidarma 6(4): 2111. doi:10.30865/mib.v6i4.4681.
Ucha Putri, Sanni, Eka Irawan, Fitri Rizky, Stikom Tunas Bangsa, Pematangsiantar A -Indonesia Jln Sudirman Blok No, and Sumatera Utara. 2021. “Implementasi Data Mining Untuk Prediksi Penyakit Diabetes Dengan Algoritma C4.5.” Januari 2(1): 39–46.
Wardhana, Indrawata, Musi Ariawijaya, Vandri Ahmad Isnaini, and Rahmi Putri Wirman. 2022. “Gradient Boosting Machine, Random Forest Dan Light GBM Untuk Klasifikasi Kacang Kering.” Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) 6(1): 92–99. doi:10.29207/resti.v6i1.3682.
DOI: https://doi.org/10.26760/mindjournal.v10i2.221-234
Refbacks
- Saat ini tidak ada refbacks.
____________________________________________________________
ISSN (Print): 2338-8323 | ISSN (Online): 2528-0902
Dipublikasikan oleh:
Program Studi Informatika, Institut Teknologi Nasional Bandung
Alamat:
Gedung 2 Informatika, Jl. PHH Mustofa No. 23, Bandung 40124, Indonesia
Kontak:
Telp: +62-22-7272215 (ext. 181) Fax: +62-22-7202892
Email: mind.journal@itenas.ac.id
______________________________
Statistik Pengunjung :
Jurnal ini terlisensi oleh Creative Commons Attribution-ShareAlike 4.0 International License.
1.png)



