Jurnal Teknologi Informasi dan Ilmu Komputer (Dec 2023)

Penyeimbangan Kelas SMOTE dan Seleksi Fitur Ensemble Filter pada Support Vector Machine untuk Klasifikasi Penyakit Liver

  • Muhammad Amir Nugraha,
  • Muhammad Itqan Mazdadi,
  • Andi Farmadi,
  • Muliadi,
  • Triando Hamonangan Saragih

DOI
https://doi.org/10.25126/jtiik.1067234
Journal volume & issue
Vol. 10, no. 6

Abstract

Read online

Liver merupakan salah satu organ penting dalam tubuh manusia yang berperan dalam proses metabolisme tubuh. Mengutip artikel dari situs American Liver Foundation, pada tahun 2020 sebanyak 51.642 orang dewasa di Amerika Serikat meninggal akibat penyakit liver. Data hasil tes fungsi liver dari laboratorium dapat digunakan untuk mendiagnosis penyakit liver. Klasifikasi penyakit liver pada pasien perlu dilakukan dengan baik karena hasilnya dapat membantu dalam diagnosis awal apakah seorang pasien mengidap penyakit liver. Berdasarkan penelitian sebelumnya, metode Support Vector Machine (SVM) paling baik dalam mengklasifikasikan pasien penyakit liver. Namun, SVM memiliki kelemahan ketika diterapkan pada dataset dengan kelas yang tidak seimbang dan tidak bekerja secara akurat ketika terlalu banyak fitur yang tidak relevan digunakan. Untuk menyeimbangkan kelas pada dataset, digunakan metode Synthetic Minority Oversampling Technique (SMOTE). Sedangkan untuk seleksi fitur dilakukan menggunakan metode Ensemble Filter, terdiri dari metode Information Gain, Gain Ratio, dan Relief-F untuk menangani fitur-fitur tidak relevan. Berdasarkan hasil pengujian, penerapan SMOTE dan Ensemble Filter pada metode klasifikasi SVM memberikan hasil terbaik dengan nilai accuracy sebesar 85% dan AUC sebesar 0,850. Pengujian tersebut dapat membuktikan jika SMOTE pada penyeimbangan kelas dan Ensemble Filter pada seleksi fitur dapat meningkatkan performa klasifikasi dari metode SVM. Abstract The liver is one of the important organs in the human body that plays a role in the body's metabolic processes. Quoting an article from the American Liver Foundation website, in 2020, as many as 51,642 adults in the United States died from liver disease. Liver function test data from the laboratory can be used to diagnose liver disease. Classification of liver disease in patients needs to be done well because the results can help in the initial diagnosis of whether a patient has liver disease. Based on previous research, the Support Vector Machine (SVM) method best classifies liver disease patients. However, SVM has weaknesses when applied to datasets with unbalanced classes and does not work accurately when too many irrelevant features are used. To class-balance the dataset, the Synthetic Minority Oversampling Technique (SMOTE) method is used. Meanwhile, feature selection is performed using the Ensemble Filter method, which consists of Information Gain, Gain Ratio, and Relief-F methods to handle irrelevant features. Based on the test results, the application of SMOTE and Ensemble Filter in SVM classification gives the best results with an accuracy value of 85% and an AUC of 0.850. The test can prove if SMOTE on class balancing and Ensemble Filter on feature selection can improve the classification performance of the SVM method.

Keywords