Prediksi Kanker Paru dengan Normalisasi menggunakan Perbandingan Algoritma Random Forest, Decision Tree dan Naïve Bayes

Authors

  • Banafshah Shafa Teknik Informatika Universitas Buana Perjuangan Karawang
  • Hanny Hikmayanti Handayani Teknik Informatika Universitas Buana Perjuangan Karawang
  • Santi Arum Puspita Lestari Teknik Informatika Universitas Buana Perjuangan Karawang
  • Yana Cahyana Teknik Informatika Universitas Buana Perjuangan Karawang

DOI:

https://doi.org/10.51454/decode.v4i3.779

Keywords:

Confusion Matrix, Decision Tree, Naive Bayes, Penyakit Kanker Paru, Random Forest

Abstract

Berdasarkan data Global Cancer Observatory Organisasi Kesehatan Dunia angka kematian kanker paru sebanyak 1.796.144 orang di seluruh dunia. Kematian akibat kanker paru di Indonesia sebanyak 30.843 pada tahun 2020. Penyakit yang dapat membunuh orang akibat keganasannya yang paling umum disebabkan oleh kanker paru mencapai 13% dari keseluruhan diagnosis kanker. Penyakit ini dapat disebabkan dari internal ataupun eksternal paru- paru. Membuat model prediksi dirasa perlu, guna mendeteksi penyakit ini lebih awal untuk menekan angka kematian yang diakibatkan oleh kanker paru. Menggunakan proses pemodelan menggunakan algoritma Random Forest, Naïve Bayes dan Decision Tree untuk memproses data tersebut. Tujuan penelitian melakukan perbandingan algoritma Random Forest, Decision Tree serta Naïve Bayes untuk memprediksi penyakit kanker paru dengan menggunakan data yang terdiri dari 26. 000 data. Data ini meliputi informasi tentang pasien, gaya hidup, dan kondisi medis, seperti umur, jenis kelamin, polusi udara, konsumsi alkohol, alergi debu, risiko genetik, penyakit paru kronis, diet seimbang, obesitas, kebiasaan merokok, dan riwayat penyakit lain. Tahapan pengolahan data terdiri dari, pembersihan Data, yaitu menghilangkan fitur yang tidak relevan, seperti Index dan Patient ID, dan mengubah fitur kategorikal "Level" menjadi bentuk numerik, lalu analisis Korelasi,yaitu Mengidentifikasi atribut yang memiliki korelasi tinggi, seperti "Alcohol Use", "Occupational Hazards", "Genetic Risk", dan "Chronic Lung Disease", selanjutya normalisasi data mengubah sebaran data dari empat atribut yang memiliki korelasi tinggi agar lebih mudah diproses, kemudian seleksi fitur yaitu memilih fitur penting dengan menggunakan metode chi-square, yang menunjukkan bahwa "Coughing of Blood", "Passive Smoker", dan "Obesity" memiliki score tertinggi dan dianggap sebagai fitur penting, dilanjutkan dengan pemisahan Data, yaitu membagi data menjadi 80% untuk data pelatihan dan 20% untuk data pengujian, selanjutnya pembuatan model dengan menggunakan tiga algoritma, yaitu Random Forest, Decision Tree, dan Naïve Bayes, untuk memprediksi kanker paru. Random Forest dan Decision Tree mencapai akurasi 100%, sementara Naïve Bayes mencapai akurasi 86%. Berdasarkan evaluasi penelitian yang telah dilakukan pada data penyakit kanker paru, algoritma Random Forest dan Decision Tree sangat cocok untuk prediksi data penyakit kanker paru karena mampu menghasilkan model prediksi yang baik dengan pengujian Confusion Matrix serta Learning Curve.

References

Agtira, B. H., Handayani, H. H., & Masruriyah, A. F. N. (2023). Perbandingan Algoritma NBC dan Decision Tree pada Sentimen Analisis Mengenai Vaksinasi Covid-19 Di Indonesia. Remik, 7(1), 704–712. https://doi.org/10.33395/remik.v7i1.12151

Alamsyah, H., Cahyana, Y., & Pratama, A. R. (2023). Deteksi Fake Review Menggunakan Metode Support Vector Machine dan Naïve Bayes Di Tokopedia. Jutisi: Jurnal Ilmiah Teknik Informatika Dan Sistem Informasi, 12, no.2, 585–598.

Aldiansyah Poetra, F., Rohana, T., & Elvira Awal, E. (2023). Implementasi Algoritma Naïve Bayes Untuk Mendiagnosa Skizofrenia Berbasis Web. IV(2), 146.

Appasani, Bokkisam, & Surendran. (2024). An Incremental Naive Bayes Learner for Real-Time Health Prediction. Procedia Computer Science, 235, 2942–2954.

Apriliah, W., Kurniawan, I., Baydhowi, M., & Haryati, T. (2021). Prediksi Kemungkinan Diabetes pada Tahap Awal Menggunakan Algoritma Klasifikasi Random Forest. Sistemasi, 10(1), 163. https://doi.org/10.32520/stmsi.v10i1.1129

Arifuddin, A., Buana, G. S., Vinarti, R. A., & Djunaidy, A. (2024). Performance Comparison of Decision Tree and Support Vector Machine Algorithms for Heart Failure Prediction. Procedia Computer Science, 628–636.

Arum, M. P., & Triyono. (2021). Genetic Algorithm For Feature Selection In Naive Bayes In Life Resistance Classification On Breast Cancer Patient. Jurnal Ilmu KOmputer An Nuur, .1, 32–37.

Fadillah Hermawan, A., Rakhmat Umbara, F., & Kasyidi, F. (2022). MIND (Multimedia Artificial Intelligent Networking Database Prediksi Awal Penyakit Stroke Berdasarkan Rekam Medis menggunakan Metode Algoritma CART(Classification and Regression Tree). Journal MIND Journal | ISSN, 7(2), 151–164. https://doi.org/10.26760/mindjournal.v7i2.151-164

Harto, M. K., & Basuki, A. (2021). Deteksi Serangan DDoS Pada Jaringan Berbasis SDN Dengan Klasifikasi Random Forest. Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer, 5(4), 1329–1333. http://j-ptiik.ub.ac.id

Hidayanti, A., Siregar, A. M., Arum, S., Lestari, P., & Cahyana, Y. (2022). Model Analisis Kasus Covid-19 di Indonesia Menggunakan. Jurnal Pengkajian Dan Penerapan Teknik Informatika, 15(1), 91–101.

Kenang Candra Alivian Pratama, H., Suharso, W., Kunci, K., Naïve Bayes, B., Naïve Bayes, G., & Naïve Bayes, M. (2022). Pengklasifikasian Kanker Payudara Dan Kanker Paru-Paru Dengan Metode Gaussian Naïve Bayes, Multinomial Naïve Bayes, Dan Bernoulli Naïve Bayes Classification Of Breast Cancer And Lung Cancer Using The Gaussian Naïve Bayes Multinomial Nave Bayes And Bernoul. Jurnal Smart Teknologi, 3(4), 2774–1702. http://jurnal.unmuhjember.ac.id/index.php/JST

Meiyanti, A., & Komarudin, R. (2020). Klasifikasi Diagnosa Penyakit Paru-Paru Pada Klinik Raditya Medical Center Dengan Metode Algoritma C4.5. JSI: Jurnal Sistem Informasi (E-Journal), 12(1), 1894–1905. https://doi.org/10.36706/jsi.v12i1.9456

Mia, Nur Masruriyah, A. F., & Pratama, A. R. (2024). Komparasi Model DecisionTree dan Random Forest untuk Memprediksi Penyakit Jantung. Scientific Student Journal for Information, Technology and Science, V(2), 123–130.

Naezer, M., & Supriyanto, R. (2023). Analisis Kinerja Algoritma Naïve Bayes dan k-NN untuk Memprediksi Penyakit Kanker Paru. Jurnal Ilmiah KOMPUTASI, 22 No 2(p-ISSN 1412-9434/e-ISSN 2549-7227).

Nair, Devi, & Bhasi. (2024). Enhanced lung cancer detection: Integrating improved random walker segmentation with artificial neural network and random forest classifier. Heliyon.

Permana, B. A. C., & Djamaluddin, M. (2023). Penerapan Python Dalam Data Mining Untuk Prediksi Kangker Paru. Infotek : Jurnal Informatika Dan Teknologi, 6(2), 470–477. https://doi.org/10.29408/jit.v6i2.17816

Qisthiano, M. R., Prayesy, P. A., & Ruswita, I. (2023). Penerapan Algoritma Decision Tree dalam Klasifikasi Data Prediksi Kelulusan Mahasiswa. G-Tech: Jurnal Teknologi Terapan, 7(1), 21–28. https://doi.org/10.33379/gtech.v7i1.1850

Rahman Wahid, M. A., Nugroho, A., & Halim Anshor, A. (2023). Prediksi Penyakit Kanker Paru-Paru Dengan Algoritma Regresi Linier. Bulletin of Information Technology (BIT), 4(1), 63–74. https://doi.org/10.47065/bit.v4i1.501

Sari, L., Romadloni, A., & Listyaningrum, R. (2023). Penerapan Data Mining dalam Analisis Prediksi Kanker Paru Menggunakan Algoritma Random Forest. Infotekmesin, 14(1), 155–162. https://doi.org/10.35970/infotekmesin.v14i1.1751

Septhya, D., Rahayu, K., Rabbani, S., Fitria, V., Rahmaddeni, R., Irawan, Y., & Hayami, R. (2023). Implementasi Algoritma Decision Tree dan Support Vector Machine untuk Klasifikasi Penyakit Kanker Paru. MALCOM: Indonesian Journal of Machine Learning and Computer Science, 3(1), 15–19. https://doi.org/10.57152/malcom.v3i1.591

Sinaga, R. B., Widiyanto, D., & Wahyono, B. T. (2022). Deteksi Dini Penyakit Kanker Paru dengan Gabungan Algoritma Adaboost dan Random Forest. Seminar Nasional Mahasiswa Ilmu Komputer Dan Aplikasinya (SENAMIKA), 1–10. https://www.kaggle.com/datasets/mysarahmadbhat/lung-cancer

Zulaikhah Hariyanti Rukmana, S., Aziz, A., & Harianto, W. (2022). Optimasi Algoritma K-Nearest Neighbor (Knn) Dengan Normalisasi Dan Seleksi Fitur Untuk Klasifikasi Penyakit Liver. JATI (Jurnal Mahasiswa Teknik Informatika), 6(2), 439–445. https://doi.org/10.36040/jati.v6i2.4722

Downloads

Published

2024-11-26

How to Cite

Banafshah Shafa, Hanny Hikmayanti Handayani, Santi Arum Puspita Lestari, & Yana Cahyana. (2024). Prediksi Kanker Paru dengan Normalisasi menggunakan Perbandingan Algoritma Random Forest, Decision Tree dan Naïve Bayes. Decode: Jurnal Pendidikan Teknologi Informasi, 4(3), 1057–1070. https://doi.org/10.51454/decode.v4i3.779

Issue

Section

Articles