Perbandingan Metode Klasifikasi pada Data dengan Imbalance Class dan Missing Value

Nofita Istiana; Arief Mustafiril

doi:10.31294/inf.v10i2.15540

Jurnal Informatika (Oct 2023)

Perbandingan Metode Klasifikasi pada Data dengan Imbalance Class dan Missing Value

Nofita Istiana,
Arief Mustafiril

Affiliations

Nofita Istiana: Politeknik Statistika STIS
Arief Mustafiril: Universitas Trisakti

DOI: https://doi.org/10.31294/inf.v10i2.15540
Journal volume & issue: Vol. 10, no. 2
pp. 101 – 108

Abstract

Read online

Imbalance class dan missing value merupakan beberapa permasalahan dalam metode klasifikasi. Imbalance class berdampak pada hasil prediksi dimana kelas minoritas sering disalahklasifikasikan sebagai kelas mayoritas. Missing value menyebabkan beberapa algoritma dalam metode klasifikasi tidak dapat dijalankan. Pada penelitian ini, imbalance class ditangani dengan SMOTE, sedangkan missing value ditangani dengan imputasi rataan dan binning peubah. Metode klasifikasi yang dibandingkan dalam kasus ini adalah regresi logistik, bagging, boosting, random forest, dan support vector machine yang diaplikasikan pada data dummy status kolektibilitas debitur. Metode klasifikasi tersebut akan cenderung memprediksi data kelas mayor (debitur berstatus kolektibilitas baik), sehingga prediksi kelas minor (debitur berstatus kolektibilitas buruk) cenderung sedikit. Metode yang memberikan akurasi tertinggi yaitu random forest (missing value diimputasi dengan nilai rataan), yang menghasilkan akurasi sebesar 0.801, sensitivitas sebesar 0.593, dan spesivitas sebesar 0.807. Imbalance class and missing value are some of the problems in classification method. Imbalance class causes the prediction of the minority class to be misclassified as the majority class. Missing value causes several algorithms in classification method cannot be run. In this study, imbalance class is handled by SMOTE, while missing value is handled by mean imputation and binning variable. The classification methods being compared in this study are logistic regression, bagging, boosting, random forest, and support vector machines which are applied to dummy data on debtors' collectibility status with total data 12459. The data contains 97.48 debtors with good collectibility status and 2.52 percent of debtors with bad collectibility status. The method that provides the highest accuracy is random forest (missing value imputed by mean value), which results in accuracy of 80.1 percent, sensitivity of 59.3 percent, and specificity of 80.7 percent.

Published in Jurnal Informatika

ISSN: 2355-6579 (Print); 2528-2247 (Online)
Publisher: Universitas Bina Sarana Informatika, LPPM
Country of publisher: Indonesia
LCC subjects: Technology: Technology (General): Industrial engineering. Management engineering: Information technology
Website: https://ejournal.bsi.ac.id/ejurnal/index.php/ji/index

About the journal

Abstract

Keywords