Jurnal Nasional Teknik Elektro dan Teknologi Informasi (May 2024)
Optimasi Algoritma K-Nearest Neighbors Berdasarkan Perbandingan Analisis Outlier (Berbasis Jarak, Kepadatan, LOF)
Abstract
Pertumbuhan data yang terjadi saat ini berpengaruh terhadap analisis data di berbagai bidang, seperti astronomi, bisnis, kedokteran, pendidikan, dan finansial. Data yang terkumpul dan tersimpan mengandung nilai ekstrem atau nilai pengamatan yang berbeda dari kebanyakan nilai hasil pengamatan lain. Nilai ekstrem tersebut disebut dengan outlier. Outlier pada sebagian data sering kali memiliki nilai yang mengandung informasi penting, sehingga perlu dikaji agar dapat diambil keputusan untuk menghapus atau menggunakan data tersebut sebelum diterapkan dalam penambangan data. Deteksi outlier dapat dilakukan sebagai prapemrosesan data dengan menggunakan teknik analisis outlier. Beberapa teknik analisis outlier yang banyak diterapkan antara lain metode berbasis jarak (distance), metode berbasis kepadatan (density), dan metode local outlier factor (LOF). K-nearest neighbors (KNN) merupakan salah satu algoritma penambangan data yang sangat sensitif terhadap outlier karena cara kerjanya yang bergantung pada nilai k. Oleh karena itu, perlu penanganan tepat saat KNN bekerja pada dataset yang mengandung outlier. Metode eksperimen dipilih dalam menerapkan metode usulan, dengan tujuan untuk mengoptimasi algoritma KNN berdasarkan perbandingan analisis outlier (KNN-distance, KNN-density, dan KNN-LOF). Hasil penelitian menunjukkan bahwa KNN-kepadatan unggul sebanyak tiga kali: pada Wisconsin Breast Cancer dengan nilai rata-rata akurasi sebesar 99,34% pada k=3 dan k=5; pada Glass dengan nilai rata-rata akurasi sebesar 85,25% pada k=7; dan pada Lymphography dengan nilai rata-rata akurasi sebesar 85,45% pada k=5. Selanjutnya, berdasarkan hasil uji Friedman dan uji Nemenyi, juga terbukti bahwa ada perbedaan yang signifikan antara KNN-kepadatan dengan KNN-LOF.
Keywords