JuTISI (Jurnal Teknik Informatika dan Sistem Informasi) (Aug 2023)

Analisis Komparatif Pengukuran Kemiripan Artikel Ilmiah menggunakan Jaccard dan Levenshtein serta Blocking

  • Muhammad Rizqi Nur,
  • Gandhi Surya Buana,
  • Nur Aini Rakhmawati

DOI
https://doi.org/10.28932/jutisi.v9i2.6414
Journal volume & issue
Vol. 9, no. 2
pp. 272 – 280 – 272 – 280

Abstract

Read online

Mesin pencarian artikel telah memudahkan akademisi melakukan studi literatur. Namun, mudah bukan berarti akurat. Untuk topik niche tertentu, hasil pencarian sering kali belum sesuai. Snowballing dapat dilakukan untuk mengatasi ini, tapi terbatas pada artikel awal yang dimiliki, khususnya akses penulis ketika artikel dibuat. Sebagai alternatif, database artikel menyediakan rekomendasi artikel relevan dari sebuah artikel, tapi terbatas pada database itu saja. Sebuah alat untuk mencari artikel mirip tanpa tergantung database tertentu akan sangat membantu, tapi sebelum itu, metode pengukuran kemiripan artikel yang tepat perlu dicari. Penelitian ini bertujuan melakukan pengukuran kemiripan artikel berdasarkan judul, penulis, dan keyword menggunakan Weighted Jaccard Measure dan Levenshtein distance dan mengevaluasinya. Penelitian ini juga membandingkan kinerja dengan ditambahkannya blocking dengan overlap blocking dan penghilangan stop words. Hasil pengukuran dengan Jaccard cukup buruk, tapi hasil pengukuran dengan Levenshtein + Jaccard cukup baik. Selain itu, ditemukan bahwa menitikberatkan pembobotan pada judul menghasilkan hasil terbaik. Overlap blocking dan penghilangan stop words justru meningkatkan waktu pemrosesan secara signifikan. Overlap blocking bisa mengurangi jumlah pengukuran hingga hampir setengahnya dengan jumlah overlap=1, tapi jumlah overlap di atas 1 akan membuang banyak pasangan yang seharusnya mirip. Penghilangan stop words meningkatkan kinerja Jaccard dan Levenshtein tapi perlu penyesuaian threshold.

Keywords