Jurnal Teknologi Informasi dan Ilmu Komputer (Aug 2024)
Analisis Kinerja Intrusion Detection System Berbasis Algoritma Random Forest Menggunakan Dataset Unbalanced Honeynet BSSN
Abstract
Teknologi dan sistem informasi yang semakin berkembang menjadikan ancaman siber juga semakin meningkat. Pada tahun 2023, Indonesia menduduki peringkat pertama sebagai negara dengan sumber serangan tertinggi. Untuk mengatasi permasalahan tersebut, Intrusion Detection System (IDS) dijadikan solusi di berbagai sistem pemerintahan, bekerja sama dengan Honeynet BSSN. Namun, IDS ini tidak bekerja maksimal untuk mendeteksi jenis serangan baru yang belum pernah terjadi sebelumnya (zero-day). Untuk meningkatkan performa IDS salah satunya dengan menggunakan machine learning. Pada penelitian ini, diusulkan desain IDS berbasis algoritma random forest menggunakan dataset CIC-ToN-IoT sebagai dataset whitelist dan dataset Honeynet BSSN sebagai dataset blacklist. Model mengklasifikasikan 10 (sepuluh) klasifikasi yaitu Benign, Information Leak, Malware, Trojan Activity, Information Gathering, APT, Exploit, Web Application Attack, Denial of Service (DoS), dan jenis serangan lainnya (other). Hasil analisis menunjukkan bahwa pemodelan IDS based on machine learning memiliki rata-rata nilai akurasi lebih dari 90%, nilai presisi 91%, nilai recall 90%, dan F1-score 90%. Untuk kelas klasifikasi dengan jumlah data support besar memiliki nilai presisi yang jauh lebih baik dibandingkan kelas klasifikasi dengan jumlah data support lebih sedikit. Dengan demikian, pemodelan machine learning yang dibuat dapat secara efektif dalam menganalisis berbagai serangan yang terjadi pada sistem informasi di Lingkungan Pemerintah terutama pada klasifikasi data dengan jumlah yang besar. Abstract As technology and information systems continue to develop, cyber threats also increase. In 2023, Indonesia will be ranked first as the country with the highest source of attacks. To overcome this problem, the Intrusion Detection System (IDS) is used as a solution in various government systems, in collaboration with Honeynet BSSN. However, this IDS doesn’t work optimally to detect new types of attacks that have never happened before (zero-day). One way to improve IDS performance is by using machine learning. In this research, we propose an IDS design based on a random forest algorithm with the CIC-ToN-IoT dataset as a whitelist dataset and the Honeynet BSSN dataset as a blacklist dataset. The model classifies 10 (ten) classifications, namely Benign, Information Leak, Malware, Trojan Activity, Information Gathering, APT, Exploit, Web Application Attack, Denial of Service (DoS), and other types of attacks. The analysis results show that IDS modeling based on machine learning has an average accuracy value of more than 90%, a precision value of 91%, a recall value of 90%, and an F1 score of 90%. For the classification of large amounts of data, the precision value is much better than for the classification of data with smaller amounts. Thus, the machine learning modeling created can effectively analyze various attacks that occur on information systems in the government environment, especially in the classification of large amounts of data.
Keywords