Teknik Preprocessing Pada Text Mining Menggunakan Data Tweet “Mental Health”
DOI:
https://doi.org/10.51454/decode.v3i2.131Keywords:
mental health, preprocessing, twitterAbstract
Indonesia merupakan salah satu negara di kategorikan pengguna media sosial twitter terbanyak yaitu mencapai 18,45 pada periode januari tahun 2022 juta pengguna sehingga data pada twitter dapat digunakan dalam melakukan bebagai penelitian. Data penelitian ini menggunakan data media sosial twitter yang diambil dengan metode crawling dan mendapatkan data sebanyak 9739 yang diambil dari tanggal 19 oktober 2022 sampai 4 desember 2022 dengan menggunakan keyword “mental health”. Data hasil crawling masih berbentuk mentah dan tidak terstruktur, sehingga perlu dilakukan preprocessing agar data dapat di proses ke tahap selanjutnya dan menghasilkan data yang dapat diolah menggunakan tools pengolah data. Tujuan penelitian ini adalah melakukan preprocessing pada data yang sudah diperoleh melalui twitter. Pengolahan data menggunakan model machine learning diperlukan tahap persiapan data yaitu dengan melakukan preprocessing agar data yang digunakan dapat diolah dengan baik. hasil penelitian ini adalah data yang melewati tahap preprocessing telah berbentuk kata dasar dan siap diolah untuk melakukan penelitian terkait mental health. Beberapa tahapan yang dilakukan pada preprocessing yaitu perubahan bentuk kata dasar, menghapus kata yang tidak penting, menghapus imbuhan, dan konjungsi dari dokumen tweet. Selanjutnya data yang telah melewati tahap preprocessing siap untuk dilakukan pembuatan model analisis sentimen yang berguna dalam pengambilan keputusan terhadap permasalahan tersebut.
References
Duong, H. T., & Nguyen-Thi, T. A. (2021). A review: preprocessing techniques and data augmentation for sentiment analysis. Computational Social Networks, 8(1), 1-16.
El Firdaus, M. F., Nurfaizah, N., & Sarmini, S. (2022). Analisis Sentimen Tokopedia Pada Ulasan di Google Playstore Menggunakan Algoritma Naïve Bayes Classifier dan K-Nearest Neighbor. JURIKOM (Jurnal Riset Komputer), 9(5), 1329-1336. http://dx.doi.org/10.30865/jurikom.v9i5.4774
Jannah, Y. A. N., & Prasetyo, R. B. (2022). Analisis Sentimen dan Emosi Publik pada Awal Pandemi COVID-19 Berdasarkan Data Twitter dengan Pendekatan Berbasis Leksikon. Seminar Nasional Official Statistics, 2022(1), 597-608.
Jianqiang, Z. (2015, December). Pre-processing boosting Twitter sentiment analysis?. In 2015 IEEE International Conference on Smart City/SocialCom/SustainCom (SmartCity), 748-753.
Kadhim, A. I., Cheah, Y. N., & Ahamed, N. H. (2015). Text Document Preprocessing and Dimension Reduction Techniques for Text Document Clustering. Proceedings - 2014 4th International Conference on Artificial Intelligence with Applications in Engineering and Technology, ICAIET 2014, 69-73. https://doi.org/10.1109/ICAIET.2014.21
Kannan, S., Gurusamy, V., Vijayarani, S., Ilamathi, J., Nithya, M., Kannan, S., & Gurusamy, V. (2014). Preprocessing techniques for text mining. International Journal of Computer Science & Communication Networks, 5(1), 7-16.
Kurniawan, S., Gata, W., Puspitawati, D. A., Parthama, I. K. S., Setiawan, H., & Hartini, S. (2020). Text Mining Pre-Processing Using Gata Framework and RapidMiner for Indonesian Sentiment Analysis. IOP Conference Series: Materials Science and Engineering, 835(1), 1-8. https://doi.org/10.1088/1757-899X/835/1/012057
Leelawat, N., Jariyapongpaiboon, S., Promjun, A., Boonyarak, S., Saengtabtim, K., Laosunthara, A., Yudha, A. K., & Tang, J. (2022). Twitter data sentiment analysis of tourism in Thailand during the COVID-19 pandemic using machine learning. Heliyon, 8(10), e10894. https://doi.org/10.1016/j.heliyon.2022.e10894
Leurs, W. L. M., Lammers, L. A. S., Compagner, W. N., Groeneveld, M., Korsten, E. H. H. M., & van der Linden, C. M. J. (2022). Text mining in nursing notes for text characteristics associated with in-hospital falls in older adults: A case-control pilot study. Aging and Health Research, 2(2), 100078. https://doi.org/10.1016/j.ahr.2022.100078
Meetei, L. S., Singh, T. D., Borgohain, S. K., & Bandyopadhyay, S. (2021). Low resource language specific pre-processing and features for sentiment analysis task. Language Resources and Evaluation, 55(4), 947-969. https://doi.org/10.1007/s10579-021-09541-9
Merinda Lestandy, Abdurrahim Abdurrahim, & Lailis Syafa’ah. (2021). Analisis Sentimen Tweet Vaksin COVID-19 Menggunakan Recurrent Neural Network dan Naïve Bayes. Jurnal RESTI (Rekayasa Sistem Dan Teknologi Informasi), 5(4), 802-808. https://doi.org/10.29207/resti.v5i4.3308
Mulyani, S., & Novita, R. (2022). Implementation Of The Naive Bayes Classifier Algorithm For Classification Of Community Sentiment About Depression On Youtube. Jurnal Teknik Informatika (Jutif), 3(5), 1355-1361. https://doi.org/10.20884/1.jutif.2022.3.5.374
Muzaki, A., & Witanti, A. (2021). Sentiment Analysis of the Community in the Twitter To the 2020 Election in Pandemic Covid-19 By Method Naive Bayes Classifier. Jurnal Teknik Informatika (Jutif), 2(2), 101-107. https://doi.org/10.20884/1.jutif.2021.2.2.51
Nurkholis, A., Alita, D., & Munandar, A. (2022). Comparison of Kernel Support Vector Machine Multi-Class in PPKM Sentiment Analysis on Twitter. Jurnal RESTI (Rekayasa Sistem Dan Teknologi Informasi), 6(2), 227-233. https://doi.org/10.29207/resti.v6i2.3906
Rahmawati, C., & Sukmasetya, P. (2022). Sentimen Analisis Opini Masyarakat Terhadap Kebijakan Kominfo atas Pemblokiran Situs non-PSE pada Media Sosial Twitter. 9(5), 1393-1400. https://doi.org/10.30865/jurikom.v9i5.4950
Saputra, N. (2019). Sentiment Analisys With Lexicon Preprocessing. Dinamika Informatika, 7(1), 45-57.
Sohrabi, M. K., & Hemmatian, F. (2019). An Efficient Preprocessing Method For Supervised Sentiment Analysis By Converting Sentences To Numerical Vectors: A Twitter Case Study. Multimedia Tools and Applications, 78(17), 24863-24882. https://doi.org/10.1007/s11042-019-7586-4
Syafaat Amardita, R., & Dwifebri Purbolaksono, M. (2022). Analisis Sentimen terhadap Ulasan Paris Van Java Resort Lifestyle Place di Kota Bandung Menggunakan Algoritma KNN. Jurnal Riset Komputer), 9(1), 2407-389. https://doi.org/10.30865/jurikom.v9i1.3793
Syah, H., & Witanti, A. (2022). Analisis Sentimen Masyarakat Terhadap Vaksinasi Covid-19 Pada Media Sosial Twitter Menggunakan Algoritma Support Vector Machine (SVM). Jurnal Sistem Informasi Dan Informatika (Simika), 5(1), 59-67. https://doi.org/10.47080/simika.v5i1.1411
Ulfah, A. N., Anam, M. K., Sidratul Munti, N. Y., Yaakub, S., & Firdaus, M. B. (2022). Sentiment Analysis of the Convict Assimilation Program on Handling Covid-19. JUITA : Jurnal Informatika, 10(2), 209. https://doi.org/10.30595/juita.v10i2.12308
Xu, Q. A., Chang, V., & Jayne, C. (2022). A systematic review of social media-based sentiment analysis: Emerging trends and challenges. Decision Analytics Journal, 3(April), 100073. https://doi.org/10.1016/j.dajour.2022.100073
Yudhana, A., Fadlil, A., & Rosidin, M. (2019). Indonesian Words Error Detection System Using Nazief Adriani Stemmer Algorithm. International Journal of Advanced Computer Science and Applications, 10(12), 219-225. https://doi.org/10.14569/ijacsa.2019.0101231
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2023 Dianda Rifaldi, Abdul Fadlil, Herman

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.