Analisa Kinerja Algoritma Random Forest Classifier dengan Mutual Information dan Skip-Gram pada Klasifikasi Jurnal INIS

Mufidah Karimah, Achmad Hindasyah, Taswanda Taryo

Abstract


Supervised learning adalah teknik yang bergantung pada masukan berlabel untuk mempelajari suatu fungsi dan menghasilkan keluaran yang sesuai apabila diberi data baru tanpa label. Penggunaan algoritma supervised learning sering dibutuhkan dalam berbagai kondisi, salah satunya yakni mengklasifikasikan dokumen. INIS adalah salah satu perpustakaan digital yang dianggap masih melakukan pengklasifikasian dokumen secara manual dan membutuhkan pengotomatisasian klasifikasi dokumen. Hal ini mengakibatkan proses pengelompokkan memakan waktu yang relatif lama dan terdapat banyak kendala karena banyaknya jumlah dokumen. Penelitian ini memiliki tujuan utama untuk menentukan algoritma yang memiliki kinerja dan akurasi terbaik agar dapat diimplementasikan dalam proses pengklasifikasian dokumen ilmiah. Penelitian ini menggunakan kombinasi algoritma Random Forest (RF) dengan Skip-Gram (SG) dan Mutual Information (MI) sebagai metode ekstraksi fitur dan metode seleksi fitur. Hasil menunjukkan bahwa kumpulan data yang digunakan dapat mempengaruhi kinerja suatu algoritma. Selain itu pada penelitian ini menunjukkan bahwa presentase kinerja dari algoritma Random Forest dan Skip-Gram lebih baik jika dikombinasikan dengan seleksi fitur daripada tidak menggunakan seleksi fitur. Penggunaan seleksi fitur pada Random Forest dan Skip-Gram  dalam penelitian ini juga menunjukkan presentase kinerja lebih stabil jika dibandingkan dengan kinerja Random Forest dan Skip-Gram tanpa fitur seleksi.

Keywords


Text Mining; Klasifikasi Dokumen; Pengklasifikasian Random Forest; Skip-gram; Mutual Information

Full Text:

PDF (Indonesian)

References


E. Burns, N. Laskowski, and L. Tucci, “What is Artificial Intelligence (AI)? - AI Definition and How it Works,” 2021. https://searchenterpriseai.techtarget.com/definition/AI-Artificial-Intelligence.

Y. A. Alhaj, J. Xiang, D. Zhao, M. A. A. Al-Qaness, M. Abd Elaziz, and A. Dahou, “A Study of the Effects of Stemming Strategies on Arabic Document Classification,” IEEE Access, vol. 7, pp. 32664–32671, 2019, doi: 10.1109/ACCESS.2019.2903331.

C. Anne, 1. https://doi.org/10.5430/air.v7n1p1 Mishra, AvdeshAnne, C., Mishra, A., Hoque, M. T., & Tu, S. (2017). Multiclass patent document classification. Artificial Intelligence Research, 7(1), M. T. Hoque, and S. Tu, “Multiclass patent document classification,” Artif. Intell. Res., vol. 7, no. 1, p. 1, 2017, doi: 10.5430/air.v7n1p1.

B. Behera, G. Kumaravelan, and P. Kumar, “Performance evaluation of machine learning algorithms in biomedical document classification,” Proc. 11th Int. Conf. Adv. Comput. ICoAC 2019, no. May, pp. 220–224, 2019, doi: 10.1109/ICoAC48765.2019.246843.

T. Shi, X. Zhang, P. Wang, and C. K. Reddy, “Corpus-level and Concept-based Explanations for Interpretable Document Classification,” ACM Trans. Knowl. Discov. Data, vol. 1, no. 1, pp. 1–17, 2020, doi: 10.1145/3477539.

K. Spirovski, E. Stevanoska, A. Kulakov, Z. Popeska, and G. Velinov, “Comparison of different model?s performances in task of document classification,” ACM Int. Conf. Proceeding Ser., 2018, doi: 10.1145/3227609.3227668.

H. T. Sueno, B. D. Gerardo, and R. P. Medina, “Multi-class document classification using support vector machine (SVM) based on improved naïve bayes vectorization technique,” Int. J. Adv. Trends Comput. Sci. Eng., vol. 9, no. 3, pp. 3937–3944, 2020, doi: 10.30534/ijatcse/2020/216932020.

M. Z. Islam, J. Liu, J. Li, L. Liu, and W. Kang, “A semantics aware random forest for text classification,” Int. Conf. Inf. Knowl. Manag. Proc., pp. 1061–1070, 2019, doi: 10.1145/3357384.3357891.

M. Z. Alam, M. S. Rahman, and M. S. Rahman, “A Random Forest based predictor for medical data classification using feature ranking,” Informatics Med. Unlocked, vol. 15, no. January, p. 100180, 2019, doi: 10.1016/j.imu.2019.100180.

A. Nurdin, B. A. S. Aji, A. Bustamin, and Z. Abidin, “PERBANDINGAN KINERJA WORD EMBEDDING WORD2VEC , GLOVE ,” J. TEKNOKOMPAK, vol. 14, no. 2, pp. 74–79, 2020.

S. Bahassine, A. Madani, M. Al-Sarem, and M. Kissi, “Feature selection using an improved Chi-square for Arabic text classification,” J. King Saud Univ. - Comput. Inf. Sci., vol. 32, no. 2, pp. 225–231, 2020, doi: 10.1016/j.jksuci.2018.05.010.

G. E. Ferreira, B. L. Santos, M. T. Do Ó, R. R. Braz, and L. A. Digiampietri, “Social bots detection in Brazilian presidential elections using natural language processing,” ACM Int. Conf. Proceeding Ser., 2021, doi: 10.1145/3466933.3466991.

F. Rustam, I. Ashraf, A. Mehmood, S. Ullah, and G. S. Choi, “Tweets classification on the base of sentiments for US airline companies,” Entropy, vol. 21, no. 11, pp. 1–22, 2019, doi: 10.3390/e21111078.




DOI: http://dx.doi.org/10.51213/jimp.v7i3.638

Copyright (c) 2023 Mufidah Karimah, Achmad Hindasyah, Taswanda Taryo

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.