Techno.Com (May 2024)

Penggunaan Feature Space SMOTE Untuk Mengurangi Overfitting Akibat Imbalance Dataset

  • Wira Adi Kurniawan,
  • Abu Salam

DOI
https://doi.org/10.62411/tc.v23i2.10215
Journal volume & issue
Vol. 23, no. 2
pp. 328 – 337

Abstract

Read online

Pembuatan model klasifikasi memerlukan beberapa hal yang penting untuk diperhatikan demi mendapatkan model yang memiliki performa terbaik. Indikator suatu model disebut baik dapat dilihat salah satunya dari tingginya nilai akurasi dan f1-score yang dihasilkan dari model tersebut. Rendahnya nilai loss juga merupakan salah satu indikator model tersebut memiliki performa yang baik. Untuk dapat membuat model yang baik, diperlukan beberapa syarat seperti arsitektur yang tepat dan data yang berkualitas. Pemilihan model yang terlalu sederhana akan mengakibatkan model memiliki performa yang buruk, begitupun jika model terlalu kompleks tidak akan menghasilkan performa yang baik pula, oleh karena itu model yang dipilih haruslah model yang tepat dan sesuai dengan jenis data yang digunakan. Data yang berkualitas juga merupakan faktor penting agar model memiliki performa maksimal. Data dapat dikatakan berkualitas jika memenuhi syarat seperti jumlahnya cukup, distribusi datanya seimbang tiap kelas, memiliki keanekaragaman dan memiliki kebersihan yang baik. Pada penelitian ini, dilakukan pembuatan model klasifikasi CT Kidney Stone dengan dataset yang imbalance. Dataset diperoleh dari sumber publik yaitu Kaggle. Pembuatan model menggunakan algoritma CNN karena CNN merupakan salah satu algoritma yang terbaik dalam membuat klasifikasi gambar. Pembuatan model menggunakan 3 cara untuk melihat model yang memiliki performa paling baik. Model pertama dibuat dengan data train yang imbalance. Model kedua dibuat dengan melakukan augmentasi data untuk menambah keragaman data. Model ketiga dibuat dengan SMOTE oversampling untuk menyeimbangkan distribusi data. Setelah itu ketiga model tersebut akan diuji dengan menggunakan data privat untuk melihat performa pengujian dan melihat tingkat overfitting yang terjadi. Penelitian ini menghasilkan bahwa model yang memiliki performa terbaik adalah model ketiga yang menggunakan SMOTE.

Keywords