Jurnal Informatika (Apr 2017)

Penerapan PSO Untuk Seleksi Fitur Pada Klasifikasi Dokumen Berita Menggunakan NBC

  • Erfian Junianto,
  • Dwiza Riana

Journal volume & issue
Vol. 4, no. 1

Abstract

Read online

Abstrak Digitalisasi informasi membuat penyebaran informasi menjadi lebih cepat, aktual, dan murah. Informasi yang disebarkan tersebut terjadi dalam bentuk teks, yang mana banyak informasi yang terkandung di dalamnya. Karena banyaknya informasi penting yang terkandung di dalam dokumen teks (berita), maka dibutuhkan metode tertentu untuk menklasifikasikannya. Beberapa penelitian telah dilakukan, namum belum ada yang menerapkan Particle Swarm Optimization (PSO) untuk seleksi fitur pada klasifikasi dokumen. Maka, dalam penelitian ini akan diterapkan PSO untuk melakukan seleksi fitur, dan juga Naïve Bayes Classifier (NBC) untuk klasifikasinya. Data yang digunakan berasal dari 20 Newsgroups. Model percobaan membagi dokumen training dari 10% hingga 90%. Hal ini dilakukan untuk mengetahui model mana yang akan menghasilkan akurasi tertinggi. Dari percobaan dengan model tersebut diketahui, akurasi tertinggi yang dicapai adalah 85,42% dengan dokumen training sebesar 80% (15.077 dokumen). Sedangkan, percobaan menggunakan contoh dokumen yang berbeda, dengan kelas yang sudah ditentukan menghasilkan akurasi hingga 99,87%. Dokumen testing yang digunakan sebesar 20% (3.770 dokumen). Kata Kunci: Particle Swarm Optimization, Naïve Bayes Classifier, Klasifikasi Dokumen, Akurasi, Text Mining. Abstract Information digitization makes information dissemination faster, actual, and cheaper. The information disseminated occurs in the form of text, which contains much of the information contained in it. Because of the vast amount of important information contained in text documents (news), it takes certain methods to classify them. Several studies have been conducted, but none have implemented Particle Swarm Optimization (PSO) for feature selection on document classification. So, in this research will be applied PSO to perform feature selection, and also Naïve Bayes Classifier (NBC) for its classification. The data used comes from 20 Newsgroups. The trial model divides training documents from 10% to 90%. This is done to find out which model will produce the highest accuracy. From the experiments with the model is known, the highest accuracy achieved is 85.42% with training documents of 80% (15,077 documents). Meanwhile, experiments using different document samples, with a predetermined class yielding accuracy of up to 99.87%. Test document used is 20% (3770 documents). Keywords: Particle Swarm Optimization, Naïve Bayes Classifier, Document Classification, Accuracy, Text Mining.

Keywords