Jurnal Teknologi dan Sistem Informasi (Aug 2020)
Klasifikasi Dokumen Berita Menggunakan Algoritma Enhanced Confix Stripping Stemmer dan Naïve Bayes Classifier
Abstract
Berita adalah salah satu sarana informasi bagi masyarakat umum, dengan media online sebagai salah satu sarana untuk mengaksesnya. Di Indonesia, media online memiliki presentase paling besar dalam penyebarluasan berita. Dibutuhkan mekanisme yang dapat mengklasifikasikan setiap topik berita secara akurat. Klasifikasi adalah proses yang krusial, karena memerlukan tahap preprocessing untuk mengubah data tidak terstruktur menjadi informasi yang bermakna. Preprocessing diawali dengan case folding, tokenizing, stemming, dan filtering, diahiri dengan klasifikasi. Penelitian ini menggunakan Enhanced Confix Stripping Stemmer untuk memisahkan kata dasar dari partikel awalan dan imbuhan, yang sebelumnya sulit dilakukan. Algoritma Naïve Bayes Classifier kemudian diterapkan untuk proses klasifikasi. Dataset dari portal www.jawapos.com yang digunakan berjumlah 600 dokumen berita. Data tersebut digunakan sebagai data training, terbagi merata ke dalam kategori Olahraga, Teknologi, Ekonomi, dan Lain-lain. Dari 40 data testing yang diuji, akurasi tiap kategori diperoleh 90%, 90%, 100%, dan 100%, yang menghasilkan rata-rata akurasi keseluruhan kategori sebesar 95%.
Keywords