Perbandingan Penanganan Missing Value pada Data Numerik Survei Kepuasan Pengguna Lulusan

Dikky Praseptian M; Sinawati; Kandi Harianto

doi:10.51454/decode.v5i2.1262

Authors

Dikky Praseptian M Sistem Informasi STMIK PPKIA Tarakanita Rahmawati
Sinawati Sistem Informasi STMIK PPKIA Tarakanita Rahmawati
Kandi Harianto Teknik Informatika STMIK PPKIA Tarakanita Rahmawati

DOI:

https://doi.org/10.51454/decode.v5i2.1262

Keywords:

Kepauasan, MAPE, Nilai Hilang, Pengguna Lulusan, RMSE

Abstract

Data survei kepuasan pengguna lulusan merupakan salah satu cara yang dilakukan perguruan tinggi untuk menilai kualitas institusi ditinjau dari aspek kepuasan pengguna lulusan. Data tersebut sering mengandung nilai atribut yang hilang (missing value), yang dapat terjadi karena beberapa alasan, terutama ketika aspek yang dinilai tidak relevan dengan bidang pekerjaan lulusan. Penelitian ini menggunakan data survei kepuasan pengguna lulusan dengan jumlah 100 record dan proporsi missing value sebesar 20 persen pada atribut numerik. Evaluasi kinerja dilakukan menggunakan metode Root Mean Square Error (RMSE) dan Mean Absolute Percentage Error (MAPE) untuk membandingkan empat teknik imputasi missing value pada RapidMiner, yaitu penggantian dengan nilai rata-rata, nilai minimum, nilai maksimum, dan nilai nol. Hasil pengukuran menunjukkan bahwa model nilai rata-rata memperoleh kinerja terbaik dengan nilai RMSE sebesar 0,742 dan MAPE sebesar 13,67 persen. Sementara itu, tiga model lainnya berada pada nilai error lebih dari 1 pada RMSE dan lebih dari 20 persen pada MAPE. Pada model penggantian nilai nol, nilai error MAPE bahkan mencapai 100 persen, sehingga metode ini sangat tidak disarankan.

References

Acuña, E., & Rodriguez, C. (2004). The treatment of missing values and its effect on classifier accuracy. Classification, Clustering, and Data Mining Applications, 639-647. https://doi.org/10.1007/978-3-642-17103-1_60

Al-Khowarizmi, R., Syah, R., Nasution, M. K. M., & Elveny, M. (2021). Sensitivity of MAPE using detection rate for big data forecasting crude palm oil on k-nearest neighbor. International Journal of Electrical and Computer Engineering, 11(3). https://doi.org/10.11591/ijece.v11i3.pp2696-2703

Batista, G. E. A. P. A., & Monard, M. C. (2003). An analysis of four missing data treatment methods for supervised learning. Applied Artificial Intelligence, 17(5–6). https://doi.org/10.1080/713827181

Deb, R., & Liew, A. W. C. (2016). Missing value imputation for the analysis of incomplete traffic accident data. Information Sciences, 339. https://doi.org/10.1016/j.ins.2016.01.018

Dixon, J. K. (1979). Pattern recognition with partly missing data. IEEE Transactions on Systems, Man, and Cybernetics, 9(10). https://doi.org/10.1109/TSMC.1979.4310090

Ghorbani, S., & Desmarais, M. C. (2017). Performance comparison of recent imputation methods for classification tasks over binary data. Applied Artificial Intelligence, 31(1). https://doi.org/10.1080/08839514.2017.1279046

Grzymala-Busse, J. W., & Hu, M. (2001). A comparison of several approaches to missing attribute values in data mining. In Lecture Notes in Computer Science. https://doi.org/10.1007/3-540-45554-X_46

Hodson, T. O. (2022). Root-mean-square error (RMSE) or mean absolute error (MAE): When to use them or not. Geoscientific Model Development, 15(14). https://doi.org/10.5194/gmd-15-5481-2022

Jadhav, A., Pramod, D., & Ramanathan, K. (2019). Comparison of performance of data imputation methods for numeric dataset. Applied Artificial Intelligence, 33(10), 913–933. https://doi.org/10.1080/08839514.2019.1637138

Joshi, A., Kale, S., Chandel, S., & Pal, D. (2015). Likert Scale: Explored and explained. British Journal of Applied Science & Technology, 7(4). https://doi.org/10.9734/BJAST/2015/14975

Little, R. J., & Rubin, D. B. (2012). The prevention and treatment of missing data in clinical trials. New England Journal of Medicine, 367(14). https://doi.org/10.1056/nejmsr1203730

Luengo, J., García, S., & Herrera, F. (2012). On the choice of the best imputation methods for missing values considering three groups of classification methods. Knowledge and Information Systems, 32(1). https://doi.org/10.1007/s10115-011-0424-2

Mandel, S. P., & Jadhav, J. (2015). A comparison of six methods for missing data imputation. Journal of Biom. Biostat., 06(01). https://doi.org/10.4172/2155-6180.1000224

Mayni, N., Manurung, N., & Nehe, N. K. (2024). Penerapan metode Single Exponential Smoothing prediksi stok sembako pada Toko Suci Berkah di Sei Piring Kecamatan Pulau Rakyat. DECODE: Jurnal Pendidikan Teknologi Informasi, 4(3), 748–763. https://doi.org/10.51454/decode.v4i3.495

Mundfrom, D., & Whitcomb, A. (1998). Imputing missing values: The effect on the accuracy of classification. General Linear Model Journal, 25(1).

Nanni, L., Lumini, A., & Brahnam, S. (2012). A classifier ensemble approach for the missing feature problem. Artificial Intelligence in Medicine, 55(1). https://doi.org/10.1016/j.artmed.2011.11.006

Ngueilbaye, A., Wang, H., Mahamat, D. A., & Junaidu, S. B. (2021). Modulo 9 model-based learning for missing data imputation. Applied Soft Computing, 103. https://doi.org/10.1016/j.asoc.2021.107167

Noyunsan, C., Katanyukul, T., & Saikaew, K. (2018). Performance evaluation of supervised learning algorithms with various training data sizes and missing attributes. Engineering and Applied Science Research, 45(3). https://doi.org/10.14456/easr.2018.28

Troyanskaya, O., et al. (2001). Missing value estimation methods for DNA microarrays. Bioinformatics, 17(6). https://doi.org/10.1093/bioinformatics/17.6.520

Winarni, I., & Pratiwi, N. (2024). Prediksi harga saham menggunakan metode Long Short-Term Memory: Studi kasus saham Intel Corporation. DECODE: Jurnal Pendidikan Teknologi Informasi, 5(2), 380–390. https://doi.org/10.51454/decode.v5i2.1192

Xu, X., Chong, W., Li, S., Arabo, A., & Xiao, J. (2018). MIAEC: Missing data imputation based on the evidence Chain. IEEE Access, 6. https://doi.org/10.1109/ACCESS.2018.2803755

Yan, Y., Wu, Y., Du, X., & Zhang, Y. (2021). Incomplete data ensemble classification using imputation-revision framework with local spatial neighborhood information. Applied Soft Computing, 99. https://doi.org/10.1016/j.asoc.2020.106905