Model Random Forest Regression Untuk Peramalan Penyebaran Covid-19 Di Indonesia
Random Forest Regression Model for Forecast Of Covid-19 Spread In Indonesia
DOI:
https://doi.org/10.51454/decode.v2i2.48Abstract
Penyebaran COVID-19 sangat cepat yang membuat pada tanggal 27 Februrari 2020, sudah menginfeksi 78630 orang di China dan 2747 orang lainnya meninggal dunia. Keberadaan COVID-19 di Indonesia sendiri pertama kali terkonfirmasi pada tanggal 2 Maret 2020. Pada penelitian ini, peneliti akan melakukan peramalan penyebaran COVID-19 di Indonesia menggunakan metode Random Forest Regression. Raw Dataset yang digunakan adalah dataset yang di dapat dari situs www.kaggle.com yang berisikan record sebanyak 10695 record yang dirangkum dari tanggal 1 Maret 2020 hingga 21 Januari 2021. Jumlah fitur yang dimiliki raw dataset sebanyak 37 fitur. Proses preprocessing pada penelitian ini terdiri dari konversi fitur, seleksi fitur dan mendapatkan fitur untuk model. Metode seleksi fitur yang digunakan adalah Recursive Feature Elimination yang berhasil menyeleksi fitur dari dataset yang tadinya berjumlah 37 menjadi 20 fitur. Pelatihan model menggunakan training set yang berjumlah 8555 record. Peramalan menggunakan model Random Forest Regression akan menggunakan validation set yang berjumlah 2139 record. Hasil perhitungan error pada model Random Forest Regression tidak besar, yaitu sebesar 6.477 untuk peramalan New Cases, dan 0.2469 untuk peramalan New Deaths yang artinya hasil nilai yang diramalkan dengan nilai aktual tidak berbeda jauh.
Keywords:
covid-19, fitur, peramalan, random forest regression, seleksiReferences
Alfiyatin, A. N., Mahmudy, W. F., Ananda, C. F., & Anggodo, Y. P. (2019). Penerapan Extreme Learning Machine (ELM) untuk Peramalan Laju Inflasi di Indonesia. Jurnal Teknologi Informasi dan Ilmu Komputer, 6(2), 179-186. http://dx.doi.org/10.25126/jtiik.201962900
ASEAN. (2020). Risk Assesment for International Dissemination of COVID-19 to the ASEAN Region.
Browniee J. (2021). An Introduction to Feature Selection. Available on: https://machinelearningmastery.com/an-introduction-to-feature-selection/
Cortegiani, A., Ingoglia, G., Ippolito, M., Giarratano, A., & Einav, S. (2020). A systematic review on the efficacy and safety of chloroquine for the treatment of COVID-19. Journal of critical care, 57, 279-283. https://doi.org/10.1016/j.jcrc.2020.03.005
Darst, B. F., Malecki, K. C., & Engelman, C. D. (2018). Using Recursive Feature Elimination in Random Forest To Account For Correlated Variables in High Dimensional Data. BMC genetics, 19(1), 1-6.
Han, J., Kamber M, Pei J. (2012). Data Mining. Concepts and Techniques, 3rd Edition (The Morgan Kaufmann Series in Data Management Systems), Elsevier, 382-383.
Hayes A. (2021). Chi Squre Statistic Definition. Available on: https://www.investopedia.com/terms/c/chi-square-statistic.asp
He, F., Deng, Y., & Li, W. (2020). Coronavirus disease 2019: What we know?. Journal of Medical Virology, 92(7), 719-725. https://doi.org/10.1002/jmv.25766
Heizer J., & Barry R. (2009). Operation Management. Buku 1 edisi 9. Jakarta: Salemba Empat
Liebeskind M. (2021). Machine Learning Techniques for Salses Forecasting. Available on: https://towardsdatascience.com/5-machine-learning-techniques-for-sales-forecasting-598e4984b109
Luong, C., & Dokuchaev, N. (2018). Forecasting Of Realised Volatility with The Random Forests Algorithm. Journal of Risk and Financial Management, 11(4), 1-15. https://doi.org/10.3390/jrfm11040061
Malik, S., Harode, R., & Kunwar, A. S. (2020). XGBoost: A Deep Dive into Boosting (Introduction Documentation). Simon Fraser University: Burnaby, BC, Canada.
Pavlyshenko, B. M. (2019). Machine-learning models for sales time series forecasting. Data, 4(1), 15. https://doi.org/10.3390/data4010015
Reis, I., Baron, D., & Shahaf, S. (2018). Probabilistic Random Forest: A Machine Learning Algorithm For Noisy Data Sets. The Astronomical Journal, 157(1), 1-12.
Riadi M. (2021). Pengertian, Fungsi dan Jenis-Jenis Peramalan. Available on: https://www.kajianpustaka.com/2017/11/pengertian-fungsi-dan-jenis-peramalan-forecasting.html. Tanggal akses: 4 April 2021
Rustam, Z., & Maghfirah, N. (2018). Correlated Based Svm-Rfe as Feature Selection For Cancer Classification Using Microarray Databases. In AIP Conference Proceedings (Vol. 2023, No. 1, p. 020235). AIP Publishing LLC.
Ryalino, C. (2020). How Indonesia copes with coronavirus disease 2019 so far (part one): The country, the government, and the society. Bali Journal of Anesthesiology, 4(2), 33-34.
Scikit-learn. (2021). Scikit Learn Documentation Python. Available on: https://scikit-learn.org/stable/
Shalev-Shwartz., Ben-David. (2013). Understanding Machine Learning:From Theory to Algorithm (Vol. 9781107057). https://doi.org/10.1017/CBO9781107298019
Wibawa, M. S., & Novianti, K. D. P. (2017). Reduksi fitur untuk optimalisasi klasifikasi tumor payudara berdasarkan data citra FNA. E-Proceedings KNS&I STIKOM Bali, 73-78.
Yan, K., & Zhang, D. (2015). Feature selection and analysis on correlated gas sensor data with recursive feature elimination. Sensors and Actuators B: Chemical, 212, 353-363. https://doi.org/10.1016/j.snb.2015.02.025
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2022 Diana Tri Susetianingtias, Eka Patriya, Rodiah
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.