Journal of Applied Informatics and Computing (Jul 2023)

Perbandingan Metode Klasterisasi Data Bertipe Campuran: One-Hot-Encoding, Gower Distance, dan K-Prototype Berdasarkan Akurasi (Studi Kasus: Chronic Kidney Disease Dataset)

  • Zahra Rizky Fadilah,
  • Arie Wahyu Wijayanto

DOI
https://doi.org/10.30871/jaic.v7i1.5857
Journal volume & issue
Vol. 7, no. 1
pp. 63 – 73

Abstract

Read online

Penelitian ini bertujuan untuk membandingkan metode one-hot-encoding, Gower distance yang dikombinasikan dengan algoritma k-means, DBSCAN, dan OPTICS, serta k-prototype untuk pengelompokan data bertipe campuran. Dataset yang digunakan dalam penelitian ini adalah dataset penyakit ginjal kronis (CKD) yang bersumber dari UCI Machine Learning Repository. Berdasarkan evaluasi dengan menggunakan indeks siluet, diketahui bahwa k-prototype dengan jumlah cluster k=2 merupakan metode clustering yang paling optimal karena memberikan nilai indeks siluet paling tinggi dibandingkan keempat metode lainnya, yaitu dengan nilai 0,3796. Cluster 1 berisi 175 observasi, sedangkan cluster 2 berisi 225 observasi. Jika dikaitkan dengan label pada dataset, hasil clustering memberikan nilai akurasi sebesar 81,25 persen.

Keywords