Deteksi Spam Berbahasa Indonesia Berbasis Teks Menggunakan Model Bert

Muhammad Basil Musyaffa Amin; Gibran Hakim; Muhammad Taufik Maulana; Muhammad Fajrul Alwan; Hanna Shafira Anggraheni; Muhammad Jilan Naufal; Novanto Yudistira

doi:10.25126/jtiik.1168121

Jurnal Teknologi Informasi dan Ilmu Komputer (Dec 2024)

Deteksi Spam Berbahasa Indonesia Berbasis Teks Menggunakan Model Bert

Muhammad Basil Musyaffa Amin,
Gibran Hakim,
Muhammad Taufik Maulana,
Muhammad Fajrul Alwan,
Hanna Shafira Anggraheni,
Muhammad Jilan Naufal,
Novanto Yudistira

Affiliations

Muhammad Basil Musyaffa Amin: Universitas Brawijaya, Malang
Gibran Hakim: Universitas Brawijaya, Malang
Muhammad Taufik Maulana: Universitas Brawijaya, Malang
Muhammad Fajrul Alwan: Universitas Brawijaya, Malang
Hanna Shafira Anggraheni: Universitas Brawijaya, Malang
Muhammad Jilan Naufal: Universitas Brawijaya, Malang
Novanto Yudistira: Universitas Brawijaya, Malang

DOI: https://doi.org/10.25126/jtiik.1168121
Journal volume & issue: Vol. 11, no. 6

Abstract

Read online

Spam pada SMS dan Email menyebabkan pengalaman kurang menyenangkan bagi pengguna dalam pemanfaatan teknologi. Spam secara umum merupakan sebuah tindakan mengirim pesan yang tidak diinginkan atau tidak diminta kepada sejumlah besar orang. Spam kini dapat ditemui dalam berbagai bentuk, seperti web maupun multimedia. Penelitian ini bertujuan untuk mengevaluasi model berbasis BERT, khususnya IndoBERT dan MultilingualBERT, dalam mendeteksi dan mengklasifikasi spam berbahasa Indonesia pada pesan SMS dan Email. Model yang dipilih kemudian dilatih untuk mengidentifikasi perbedaan antara pesan spam dan bukan spam. Hasil evaluasi pada percobaan menggunakan dataset SMS dan Email memiliki nilai akurasi sebesar 98% pada model IndoBERT dan 95% pada model MultilingualBERT, yang menunjukkan tingkat akurasi yang tinggi. Hasil ini menunjukkan bahwa model BERT efektif dalam mendeteksi pesan spam dalam Bahasa Indonesia. Abstract Spam on SMS and Email causes an unpleasant experience for users in using technology. Spam in general is the act of sending unwanted or unsolicited messages to a large number of people. Spam can now be found in various forms, such as web and multimedia. This research aims to evaluate BERT-based models, specifically IndoBERT and MultilingualBERT, in detecting and classifying Indonesian spam in SMS and Email messages. The selected model is then trained to identify the differences between spam and non-spam messages. Evaluation results in experiments using SMS and Email datasets have an accuracy value of 98% in the IndoBERT model and 95% in the MultilingualBERT model, which shows a high level of accuracy. These results indicate that the BERT model is effective in detecting spam messages in Indonesian.

spam, deteksi spam, pemrosesan bahasa alami, BERT, text mining, klasifikasi teks

Published in Jurnal Teknologi Informasi dan Ilmu Komputer

ISSN: 2355-7699 (Print); 2528-6579 (Online)
Publisher: University of Brawijaya
Country of publisher: Indonesia
LCC subjects: Technology: Technology (General): Industrial engineering. Management engineering: Information technology
Website: http://jtiik.ub.ac.id

About the journal

Abstract

Keywords