KLASTERISASI DOKUMEN MENGGUNAKAN WEIGHTED K-MEANS BERDASARKAN RELEVANSI TOPIK

Muhammad Riduwan; Chastine Fatichah; Anny Yuniarti

doi:10.12962/j24068535.v17i2.a892

JUTI: Jurnal Ilmiah Teknologi Informasi (Aug 2019)

KLASTERISASI DOKUMEN MENGGUNAKAN WEIGHTED K-MEANS BERDASARKAN RELEVANSI TOPIK

Muhammad Riduwan,
Chastine Fatichah,
Anny Yuniarti

Affiliations

Muhammad Riduwan: Institut Teknologi Sepuluh Nopember
Chastine Fatichah: Institut Teknologi Sepuluh Nopember
Anny Yuniarti: Institut Teknologi Sepuluh Nopember

DOI: https://doi.org/10.12962/j24068535.v17i2.a892
Journal volume & issue: Vol. 17, no. 2
pp. 146 – 155

Abstract

Read online

Jumlah penelitian di dunia mengalami perkembangan yang pesat, setiap tahun berbagai peneliti dari penjuru dunia menghasilkan karya ilmiah seperti makalah, jurnal, buku dsb. Metode klasterisasi dapat digunakan untuk mengelompokkan dokumen karya ilmiah ke dalam suatu kelompok tertentu berdasarkan relevansi antar topik. Klasterisasi pada dokumen memiliki karakteristik yang berbeda karena tingkat kemiripan antar dokumen dipengaruhi oleh kata-kata pembentuknya. Beberapa metode klasterisasi kurang memperhatikan nilai semantik dari kata. Sehingga klaster yang terbentuk kurang merepresentasikan isi topik dokumen. Klasterisasi dokumen teks masih memiliki kemungkinan adanya outlier karena pemilihan fitur teks yang tidak optimal. Oleh karena itu dibutuhkan pemrosesan data yang tepat serta metode yang mengoptimalkan hasil klaster. Penelitian ini mengusulkan metode klasterisasi dokumen menggunakan Weighted K-Means yang dipadukan dengan Maximum Common Subgraph. Weighted k-means digunakan untuk klasterisasi awal dokumen berdasarkan kata-kata yang diekstraksi. Pembentukan Weighted K-Means berdasarkan perhitungan Word2Vec dan TextRank dari kata-kata dalam dokumen. Maximum common subgraph merupakan tahap pembentukan graf yang digunakan dalam penggabungan klaster untuk menghasilkan klaster baru yang lebih optimal. pembentukan graf dilakukan dengan perhitungan nilai Word2vec dan Co-occurrence dari klaster. Representasi topik dokumen tiap klaster dapat dihasilkan dari pemodelan topik Latent Dirichlet Allocation (LDA). Pengujian dilakukan dengan menggunakan dataset artikel ilmiah dari Scopus. Hasil dari analisis Koherensi topik menunjukkan nilai koherensi usulan metode adalah 0.532 pada dataset 1 yang bersifat homogen dan 0.472 pada dataset 2 yang bersifat heterogen.

Published in JUTI: Jurnal Ilmiah Teknologi Informasi

ISSN: 1412-6389 (Print); 2406-8535 (Online)
Publisher: Institut Teknologi Sepuluh Nopember
Country of publisher: Indonesia
LCC subjects: Technology: Technology (General): Industrial engineering. Management engineering: Information technology
Website: http://juti.if.its.ac.id

About the journal