JSiI (Jurnal Sistem Informasi) (Sep 2024)
KLUSTERISASI PENYEBAB KEMATIAN DI INDONESIA DENGAN PENERAPAN ALGORITMA K-MEANS
Abstract
Kasus angka kematian yang terjadi di Indonesia dapat di kelompokan dalam beberapa kategori seperti natural disaster, nonnatural disaster, dan social disaster. Pemisahan suatu instans pada dataset sering menjadi hambatan Ketika melibatkan instans yang banyak. Penemuan karakteristik yang serupa akan menjadi tantangan untuk mendapatkan kluster terbaik. Penentuan jumlah kluster yang efektif terhadap dataset yang dimiliki menjadi permasalahan lain Ketika melakukan proses kluster. Berdasarkan permasalahan dan tantangan yang diperoleh, maka untuk menjawab hal ini dilakukanlah pemodelan clustering dengan bantuan algoritma clustering. Metode yang digunakan pada pengklusteran ini adalah K-Means. Metode ini telah menjadi usulan dari berbagai penelitian yang menyatakan sukses dalam melakukan clustring. Penentuan K terbaik yaitu dengan bantuan elbow curve, dengan melihat titik elbow pada hasil generasi kurva dari dataset. Rangkaian penyelesaian penelitian ini adalah dengan mengikuti flow of process datamining yang dimulai dengan Data Preprocessing, Data modeliing, dan visualization hasil. bertujuan untuk mengetahui klusterisasi penyebab kematian di Indonesia berdasarkan kategori yang di sebutkan di atas. Dataset yang digunakan adalah sebanyak 648 instans yang diambil dari rentang 2000 – 2020 mengenai kasus kematian pada 34 provinsi di Indonesia. Data preprocessing adalah melakukan cleansing data, pembersihan outlier, missing value, data transformation. Pembersihan outlier yaitu menggunakan bantuan Box Plot, sedangkan transformation menggunakan fungsi transormasi data diskrit menjadi data numerik. Pada data modelling, algoritma K-means dengan K atau banyaknya diperoleh dari hasil Elbow Curve. Selain proses clustering, penggalian pola juga dilakukan dengan metode classification yang hasilnya ditunjukan dengan akurasi sebesar 63%. Meninjau dari hasil classification, bahwa klasifikasi kematian yang berasal dari sumber sosial, tidak dapat diprediksi dengan akurat. Klasifikasi sumber kematian dari Sosial tidak berhasil dipolakan oleh mesin learning. Matrik konfusi menunjukkan hanya 55 instans yang benar untuk bencana alam, bencana non alam dan penyakit sebesar 353 yang benar, dan untuk bencana sosial tidak berhasil diprediksi. Dari hasil ini, maka dapat diperoleh tantangan baru yaitu memperbaiki akurasi dengan mempertimbangan Imbalance Class, dan Resampling yang belum digunakan pada penelitian ini. Kata kunci: Unsupervise, clustering, K-Means, euclidean distance, elbow curve,.