Analisis Pemeringkatan Kualitas Klasifier Pada Dataset Tidak Seimbang

Choirul Anam, Ninanesia Rusdiana

Abstract


Algoritma klasifikasi C4.5, CART, k-Nearest Neighbours (k-NN) dan Naive Bayes termasuk dalam “Top 10 algorithms in data mining”. Penulis melakukan pengujian dan analisis pada keempatnya untuk mendapatkan urutan peringkat menurut kualitas kinerjanya. Metode yang umum dan cukup memadai untuk membandingkan kualitas kinerja klasifier untuk klasifikasi dua label kelas dengan proporsi jumlah kelas dari dataset yang seimbang adalah dengan menguji kinerja accuracy klasifier. Untuk dataset yang tidak seimbang seperti dalam penelitian ini menggunakan metode ini bisa bias, bahkan bisa menghasilkan kesimpulan yang menyesatkan. Dengan menghitung skor nilai yang merupakan gabungan dari parameter kinerja “accuracy”, “precision”, “recall” dan “AUC” dimana nilai tertinggi dari masing-masing parameter adalah yang terbaik akan menghasilkan penilaian kinerja klasifier yang lebih representatif menunjukkan kualitas klasifier. Dilakukan dua metode pengujian yaitu 10-fold Cros Validation dan Pengujian Secara Diskrit untuk memastikan hasil penilaian kinerja yang representatif dari masing-masing klasifier. Penerapan pengujian terhadap empat algoritma klasifikasi diatas dan analisis perbandingan kinerja menghasilkan urutan peringkat kualitas kinerja terbaik yaitu: 1. k-NN, 2. C4.5, 3. CART, 4. Naive Bayes.


Kata Kunci: C4.5, CART, k-NN, Naive Bayes, skor


Full Text:

PDF

References


Kumar, V.; Wu, X..; Quinlan, J.R.: Ghosh, J.; Yang, Q.; Motoda, H.; McLachlan, G.J.; Ng, A.; Liu, B.; Yu, P.S.; Zhou, Z.H.; Steinbach, M.; Hand, D.J.; Steinberg, D. .Top 10 algorithms in data mining. Knowl Inf Syst (2008) 14:1–37 DOI 10.1007/s10115-007-0114-2. Springer-Verlag London Limited, 2007

Stapor, K. .Evaluating and Comparing Classifiers: Review, Some Recommendations and Limitations. Proceedings of the 10th International Conference on Computer Recognition Systems CORES 2017, Advances in Intelligent Systems and Computing 578, DOI 10.1007/978-3-319-59162-9 2, 2018

Japkowicz, N., Stephen, N.: The class imbalance problem: a systematic study. Intell. Data Anal. 6(5), 40–49, 2002

Sun, Y., et al.: Classification of imbalanced data: a review. Int. J. Pattern Recogn. Artif. Intell. 23(4), 687–719, 2009

Sani, K.; Winarno, W.W.; Fauziati, S. Analisis Perbandingan Algoritma Classification Untuk Authentication Uang Kertas (Sudi kasus: Banknote Athentication). Jurnal Informatika Vol. 10, No. 1, 2015

Supritanti, W.; Kusrini; Amborowati, A. Perbandingan Kinerja Algoritma C4.5 Dan Naive Bayes Untuk Ketepatan Pemilihan Konsentrasi Mahasiswa. Jurnal INFORMA Politeknik Indonusa Surakarta ISSN : 2442-7942 Vol. 1 Nomor 3, 2016.

Astuti, Puji. Komparasi Penerapan Algoritma C4.5, k-NN dan Neural Network Dalam Proses Kelayakan Penerimaan Kredit Kendaraan Bermotor. Faktor Exacta 9(1): 87-101, ISSN: 1979-276X, 2016

Amalia, H.; Evicienna. Komparasi Metode Data Mining untuk Penentuan Proses Persalinan Ibu Melahirkan. Jurnal Sistem Informasi (Journal of Information Systems). 2/13, 103-109 DOI: http://dx.doi.org/ 10.21609/jsi.v13i2.545, 2017

Subarkah, Pangkas; Santiko, Irfan; Astuti, Tri. Perbandingan Kinerja Algoritma CART dan Naive Bayes Untuk Mendiagnosa Penyakit Diabetes Melitus. CITISEE, ISBN: 978-602-60280-1-3, 2017

Alverina, Dea; Chrismanto, Antonius Rachmat; Santoso, R. Gunawan. Perbandingan Akurasi Algoritma C4.5 dan CART dalam Memprediksi Kategori Indeks Prestasi Mahasiswa. Jurnal Teknologi dan Sistem Komputer, 6(2), 76-83, tersedia di https://jtsiskom.undip.ac.id, 2018

Nurhasan, Fuad; Hikmah, Noer; Utami, Dwi Yuni. Perbandingan Algoritma C4.5, k-NN dan Naive Bayes untuk Penentuan Model Klasifikasi Penanggung Jawab BSI Entrepreneur Center. Jurnal PILAR Nusa Mandiri Vol. 14, No. 2. 2018

Astuti, Femi Dwi; Guntara, Mohammad. Analisis Performa Algoritma k-NN dan C4.5 pada Klasifikasi Data Penduduk Miskin di Kecamatan Bantul Yogyakarta. JURTI, Vol.2 No.2, ISSN: 2579-8790, 2018.

Rosyidi, Rahman. Perbandingan Algoritma k-NN dan CART Pada Data Mining Penerimaan Beasiswa. CESS (Journal of Computer Engineering System and Science), Vol. 4 No. 2, p-ISSN :2502-7131, e-ISSN :2502-714x, 2019

Larose, D.T. Discovering Knowledge in Data. An Introduction to Data Mining. John Wiley & Sons, Inc., 2005

Shmueli, G.; Patel, N.R.; Bruce, P.C. Data Mining for Business Intelligence. A John Wiley & Sons, Inc., Publication. 2010




DOI: http://dx.doi.org/10.37438/jimp.v5i1.248