Jurnal Komputer Terapan (Nov 2024)

Oversampling Menggunakan Pendekatan Latin Hypercube Sampling Dan K-Nearest Neighbors Untuk Meningkatkan Kinerja Klasifikasi

  • Sapriadi Sapriadi,
  • Mardiah Nasution

Journal volume & issue
Vol. 10, no. 2

Abstract

Read online

Ketidakseimbangan kelas pada data (imbalanced class) merupakan tantangan signifikan dalam pengembangan model machine learning, yang sering kali menyebabkan penurunan kinerja model. Masalah ini sering ditemui dalam data nyata, di mana proporsi data antara kelas mayoritas dan minoritas sangat tidak seimbang. Salah satu pendekatan yang umum digunakan untuk mengatasi masalah ini adalah oversampling, yang berfungsi untuk menyeimbangkan distribusi kelas dengan menambahkan data sintetis ke kelas minoritas. Teknik oversampling yang paling populer adalah Synthetic Minority Oversampling Technique (SMOTE), meskipun metode ini memiliki kelemahan seperti menghasilkan data yang kurang beragam dan kemungkinan munculnya outlier. Sebagai solusi alternatif, penelitian ini mengusulkan penggunaan metode Latin-Hypercube Sampling (LHS) yang dikombinasikan dengan k-Nearest Neighbor (k-NN) untuk meningkatkan kinerja klasifikasi pada data yang tidak seimbang. Kombinasi LHS dan k-NN diharapkan dapat menghasilkan data sintetis yang lebih berkualitas, sehingga meningkatkan performa model klasifikasi yang diukur menggunakan confusion matrix. Data yang digunakan dalam penelitian ini berasal dari berbagai online repository seperti KEEL, Kaggle, UCI, serta satu dataset penjurusan siswa SMK di Pekanbaru

Keywords