Journal of Applied Informatics and Computing (Nov 2024)

Interpretable Machine Learning with SHAP and XGBoost for Lung Cancer Prediction Insights

  • Taufik Kurniawan,
  • Laily Hermawanti,
  • Achmad Nuruddin Safriandono

DOI
https://doi.org/10.30871/jaic.v8i2.8395
Journal volume & issue
Vol. 8, no. 2
pp. 296 – 303

Abstract

Read online

Kanker paru-paru tetap menjadi salah satu penyebab kematian utama di seluruh dunia, dan deteksi dini melalui metode yang akurat dan andal sangat penting untuk meningkatkan prognosis pasien. Studi ini mengusulkan model klasifikasi kanker paru-paru yang mengintegrasikan XGBoost dengan SHapley Additive exPlanations (SHAP) dan teknik Random Over Sampling (ROS) untuk mengatasi masalah ketidakseimbangan data. Dengan menggunakan optimasi hiperparameter melalui Optuna, model yang dihasilkan menunjukkan kinerja yang unggul, dengan akurasi rata-rata 96,84%, presisi 99,23%, recall 94,51%, skor F1 96,74%, spesifisitas 99,17%, dan AUC 96,84% dalam evaluasi validasi silang 10 kali lipat. Analisis SHAP memberikan interpretabilitas yang signifikan, mengidentifikasi fitur-fitur utama seperti jenis kelamin, kebiasaan merokok, dan tanda-tanda fisik jari kuning sebagai faktor-faktor yang paling memengaruhi prediksi model. Hasil penelitian ini menunjukkan bahwa model yang diusulkan tidak hanya akurat, tetapi juga dapat ditafsirkan, memberikan kontribusi signifikan untuk mendukung pengambilan keputusan klinis yang lebih baik dalam diagnosis kanker paru-paru.

Keywords