Jurnal Teknologi Informasi dan Ilmu Komputer (Apr 2023)
Strategi Penanganan Imbalance Class Pada Model Klasifikasi Penerima Kartu Indonesia Pintar Kuliah Berbasis Neural Network Menggunakan Kombinasi SMOTE dan ENN
Abstract
Keterbatasan kuota penerima program Kartu Indonesia Pintar Kuliah (KIP Kuliah) dari pemerintah mengharuskan Perguruan Tinggi (PT) menyeleksi dengan cermat calon mahasiswa yang berhak menerima program tersebut. Pembentukan model klasifikasi penerima program KIP Kuliah merupakan salah satu cara yang dapat membantu PT dalam menyeleksi calon mahasiswa agar tepat sasaran berdasarkan data lampau. Penelitian ini bertujuan untuk membentuk model klasifikasi penerima KIP Kuliah menggunakan Neural Network (NN). Strategi data processing level digunakan untuk mengatasi ketidakseimbangan data atau imbalance class yang terjadi antara kelas penerima KIP Kuliah sebagai kelas minoritas dan kelas bukan penerima KIP Kuliah sebagai kelas mayoritas. Teknik yang digunakan pada penelitian ini adalah mengkombinaskan metode oversampling Syntetic Minority Oversampling Technique (SMOTE), metode undersampling Edited Nearest Neighbor Rule (ENN), dan metode undersampling dengan penghapusan langsung pada sampel terpilih. Skema penggabungan dilakukan dengan cara mengelompokkan terlebih dahulu kelas mayoritas menjadi beberapa sub kelas (cluster) menggunakan algoritma k-means. Metode SMOTE dan ENN diterapkan secara bersamaan menggunakan rasio sampling tertentu pada dataset yang berasal dari kelas minoritas dan sub kelas mayoritas yang merupakan tetangga terdekat kelas minoritas tersebut. Metode penghapusan sampel diterapkan pada sub kelas mayoritas yang memiliki jarak yang sangat signifikan dari kelas minoritas. Tujuan dari skema yang diajukan adalah untuk meminimalkan terjadinya pembangkitan false sample pada kelas minoritas dan penghapusan sampel informatif pada kelas mayoritas. Hasil simulasi menunjukkan bahwa kombinasi teknik undersampling dan oversampling dengan skema yang diusulkan mampu meningkatkan kinerja model klasifikasi NN secara signifikan. Model klasifikasi terbaik menghasilkan nilai accuracy sebesar 93.45%, TPR sebesar 90,00%, TNR sebesar 93.67%, G-Mean sebesar 91,51%, dan nMCC sebesar 81.25%. Abstract The limited quota for recipients of the Kartu Indonesia Pintar Kuliah (KIP Kuliah) program requires the university to select carefully the students who are entitled to receive the program. This study aims to build the classification model for KIP Kuliah recipients using Neural Network (NN) which can be utilized by universities in selecting prospective KIP Kuliah recipients students. To solve the imbalanced KIP Kuliah recipients data, we propose a hybrid sampling technique that combines the Synthetic Minority Over-Sampling Technique (SMOTE) and the Edited Nearest Neighbor (ENN) and also samples selected deletion method with a new scheme. Firstly, the majority class is clustered into several sub-classes using the k-means algorithm. The SMOTE and ENN methods are applied simultaneously on a dataset derived from a minority class and a majority sub-class that is the nearest neighbor of the minority class with a certain sampling ratio. Furthermore, the sample-selected deletion method is applied to the majority sub-classes that have a very significant distance from the minority class. Lastly, The resampling results of the proposed scheme are combined into one training dataset in ANN. The objective of the proposed scheme is to minimize the generation of ‘false samples’ in the minority class and the elimination of informative samples in the majority class. The results show that the proposed scheme can significantly improve the performance of the NN classification model. The best classification model produces an accuracy value of 93.45%, TPR of 90.00%, TNR of 93.67%, G-Mean of 91.51%, and MCC of 81.25%.