Jurnal Teknologi Informasi dan Ilmu Komputer (Dec 2024)
Deteksi Spam Berbahasa Indonesia Berbasis Teks Menggunakan Model Bert
Abstract
Spam pada SMS dan Email menyebabkan pengalaman kurang menyenangkan bagi pengguna dalam pemanfaatan teknologi. Spam secara umum merupakan sebuah tindakan mengirim pesan yang tidak diinginkan atau tidak diminta kepada sejumlah besar orang. Spam kini dapat ditemui dalam berbagai bentuk, seperti web maupun multimedia. Penelitian ini bertujuan untuk mengevaluasi model berbasis BERT, khususnya IndoBERT dan MultilingualBERT, dalam mendeteksi dan mengklasifikasi spam berbahasa Indonesia pada pesan SMS dan Email. Model yang dipilih kemudian dilatih untuk mengidentifikasi perbedaan antara pesan spam dan bukan spam. Hasil evaluasi pada percobaan menggunakan dataset SMS dan Email memiliki nilai akurasi sebesar 98% pada model IndoBERT dan 95% pada model MultilingualBERT, yang menunjukkan tingkat akurasi yang tinggi. Hasil ini menunjukkan bahwa model BERT efektif dalam mendeteksi pesan spam dalam Bahasa Indonesia. Abstract Spam on SMS and Email causes an unpleasant experience for users in using technology. Spam in general is the act of sending unwanted or unsolicited messages to a large number of people. Spam can now be found in various forms, such as web and multimedia. This research aims to evaluate BERT-based models, specifically IndoBERT and MultilingualBERT, in detecting and classifying Indonesian spam in SMS and Email messages. The selected model is then trained to identify the differences between spam and non-spam messages. Evaluation results in experiments using SMS and Email datasets have an accuracy value of 98% in the IndoBERT model and 95% in the MultilingualBERT model, which shows a high level of accuracy. These results indicate that the BERT model is effective in detecting spam messages in Indonesian.
Keywords