Model Random Forest Regression Untuk Peramalan Penyebaran Covid-19 Di Indonesia

Random Forest Regression Model for Forecast Of Covid-19 Spread In Indonesia

Authors

  • Diana Tri Susetianingtias Sistem Komputer Universitas Gunadarma
  • Eka Patriya Manajemen Universitas Gunadarma
  • Rodiah Informatika Universitas Gunadarma

DOI:

https://doi.org/10.51454/decode.v2i2.48

Abstract

Penyebaran COVID-19 sangat cepat yang membuat pada tanggal 27 Februrari 2020, sudah menginfeksi 78630 orang di China dan 2747 orang lainnya meninggal dunia. Keberadaan COVID-19 di Indonesia sendiri pertama kali terkonfirmasi pada tanggal 2 Maret 2020. Pada penelitian ini, peneliti akan melakukan peramalan penyebaran COVID-19 di Indonesia menggunakan metode Random Forest Regression. Raw Dataset yang digunakan adalah dataset yang di dapat dari situs www.kaggle.com yang berisikan record sebanyak 10695 record yang dirangkum dari tanggal 1 Maret 2020 hingga 21 Januari 2021. Jumlah fitur yang dimiliki raw dataset sebanyak 37 fitur. Proses preprocessing pada penelitian ini terdiri dari konversi fitur, seleksi fitur dan mendapatkan fitur untuk model. Metode seleksi fitur yang digunakan adalah Recursive Feature Elimination yang berhasil menyeleksi fitur dari dataset yang tadinya berjumlah 37 menjadi 20 fitur. Pelatihan model menggunakan training set yang berjumlah 8555 record. Peramalan menggunakan model Random Forest Regression akan menggunakan validation set yang berjumlah 2139 record. Hasil perhitungan error pada model Random Forest Regression tidak besar, yaitu sebesar 6.477 untuk peramalan New Cases, dan 0.2469 untuk peramalan New Deaths  yang artinya hasil nilai yang diramalkan dengan nilai aktual tidak berbeda jauh.

Keywords:

covid-19, fitur, peramalan, random forest regression, seleksi

References

Alfiyatin, A. N., Mahmudy, W. F., Ananda, C. F., & Anggodo, Y. P. (2019). Penerapan Extreme Learning Machine (ELM) untuk Peramalan Laju Inflasi di Indonesia. Jurnal Teknologi Informasi dan Ilmu Komputer, 6(2), 179-186. http://dx.doi.org/10.25126/jtiik.201962900

ASEAN. (2020). Risk Assesment for International Dissemination of COVID-19 to the ASEAN Region.

Browniee J. (2021). An Introduction to Feature Selection. Available on: https://machinelearningmastery.com/an-introduction-to-feature-selection/

Cortegiani, A., Ingoglia, G., Ippolito, M., Giarratano, A., & Einav, S. (2020). A systematic review on the efficacy and safety of chloroquine for the treatment of COVID-19. Journal of critical care, 57, 279-283. https://doi.org/10.1016/j.jcrc.2020.03.005

Darst, B. F., Malecki, K. C., & Engelman, C. D. (2018). Using Recursive Feature Elimination in Random Forest To Account For Correlated Variables in High Dimensional Data. BMC genetics, 19(1), 1-6.

Han, J., Kamber M, Pei J. (2012). Data Mining. Concepts and Techniques, 3rd Edition (The Morgan Kaufmann Series in Data Management Systems), Elsevier, 382-383.

Hayes A. (2021). Chi Squre Statistic Definition. Available on: https://www.investopedia.com/terms/c/chi-square-statistic.asp

He, F., Deng, Y., & Li, W. (2020). Coronavirus disease 2019: What we know?. Journal of Medical Virology, 92(7), 719-725. https://doi.org/10.1002/jmv.25766

Heizer J., & Barry R. (2009). Operation Management. Buku 1 edisi 9. Jakarta: Salemba Empat

Liebeskind M. (2021). Machine Learning Techniques for Salses Forecasting. Available on: https://towardsdatascience.com/5-machine-learning-techniques-for-sales-forecasting-598e4984b109

Luong, C., & Dokuchaev, N. (2018). Forecasting Of Realised Volatility with The Random Forests Algorithm. Journal of Risk and Financial Management, 11(4), 1-15. https://doi.org/10.3390/jrfm11040061

Malik, S., Harode, R., & Kunwar, A. S. (2020). XGBoost: A Deep Dive into Boosting (Introduction Documentation). Simon Fraser University: Burnaby, BC, Canada.

Pavlyshenko, B. M. (2019). Machine-learning models for sales time series forecasting. Data, 4(1), 15. https://doi.org/10.3390/data4010015

Reis, I., Baron, D., & Shahaf, S. (2018). Probabilistic Random Forest: A Machine Learning Algorithm For Noisy Data Sets. The Astronomical Journal, 157(1), 1-12.

Riadi M. (2021). Pengertian, Fungsi dan Jenis-Jenis Peramalan. Available on: https://www.kajianpustaka.com/2017/11/pengertian-fungsi-dan-jenis-peramalan-forecasting.html. Tanggal akses: 4 April 2021

Rustam, Z., & Maghfirah, N. (2018). Correlated Based Svm-Rfe as Feature Selection For Cancer Classification Using Microarray Databases. In AIP Conference Proceedings (Vol. 2023, No. 1, p. 020235). AIP Publishing LLC.

Ryalino, C. (2020). How Indonesia copes with coronavirus disease 2019 so far (part one): The country, the government, and the society. Bali Journal of Anesthesiology, 4(2), 33-34.

Scikit-learn. (2021). Scikit Learn Documentation Python. Available on: https://scikit-learn.org/stable/

Shalev-Shwartz., Ben-David. (2013). Understanding Machine Learning:From Theory to Algorithm (Vol. 9781107057). https://doi.org/10.1017/CBO9781107298019

Wibawa, M. S., & Novianti, K. D. P. (2017). Reduksi fitur untuk optimalisasi klasifikasi tumor payudara berdasarkan data citra FNA. E-Proceedings KNS&I STIKOM Bali, 73-78.

Yan, K., & Zhang, D. (2015). Feature selection and analysis on correlated gas sensor data with recursive feature elimination. Sensors and Actuators B: Chemical, 212, 353-363. https://doi.org/10.1016/j.snb.2015.02.025

Downloads

Published

2022-09-29

How to Cite

Diana Tri Susetianingtias, Eka Patriya, & Rodiah. (2022). Model Random Forest Regression Untuk Peramalan Penyebaran Covid-19 Di Indonesia: Random Forest Regression Model for Forecast Of Covid-19 Spread In Indonesia. Decode: Jurnal Pendidikan Teknologi Informasi, 2(2), 84–95. https://doi.org/10.51454/decode.v2i2.48

Issue

Section

Articles