Jurnal Teknologi Informasi dan Ilmu Komputer (Aug 2023)

Pengelompokan Hasil Pencarian Skripsi Berbahasa Indonesia Menggunakan Metode DBSCAN dengan Pembobotan BM25

  • Rangga Adi Satria,
  • Indriati Indriati,
  • Sutrisno Sutrisno

DOI
https://doi.org/10.25126/jtiik.20241046899
Journal volume & issue
Vol. 10, no. 4

Abstract

Read online

Skripsi merupakan tugas akhir yang disusun oleh mahasiswa sebagai persyaratan untuk memperoleh gelar sarjana. Mesin pencari untuk mempermudah pencarian dokumen skripsi yang disimpan pada perpustakaan maupun penyimpanan digital umumnya menggunakan metode sederhana dengan mengembalikan dokumen yang mengandung potongan kata atau identik dengan kata kunci, sehingga dokumen yang diperoleh kurang relevan. Hasil pencarian dapat dikelompokan sehingga dokumen tersaji dengan lebih terperinci dan memudahkan pencarian lebih lanjut. Guna mengelompokan hasil pencarian skripsi berbahasa Indonesia, dengan menggunakan judul dan abstrak skripsi, digunakan pembobotan kata BM25 dan pengelompokan DBSCAN, metode pengelompokan yang mempertimbangkan kepadatan titik sampel dokumen. Pengujian dilakukan dengan mengukur hasil pengelompokan menggunakan rata-rata silhouette coefficient terhadap parameter epsilon dan MinPts pada metode DBSCAN, serta k1 dan b pada pembobotan BM25 dengan 4 skenario yang berbeda. Hasil pengujian menunjukan bahwa parameter k1 dan b pada pembobotan BM25 cukup mempengaruhi kualitas pengelompokan dengan metode DBSCAN. Hasil rata – rata silhouette coefficient terbaik untuk masing masing skenario secara berurutan adalah 0.722, 0.762, 0.945 dan 0.907 dengan parameter terbaik berupa k1=1.8, b=0.5, epsilon=0.1 dan MinPts=5 pada skenario pertama. k1=1.9, b=0.5, epsilon=0.1 dan MinPts=5 pada skenario kedua. k1=1.4, b=0.55, epsilon=0.1 dan MinPts=5 pada skenario ketiga dan k1=1.8, b=0.65, epsilon=0.1 dan MinPts=5 pada skenario keempat. Abstract Thesis is a final project that must be completed by students as requirement to obtain a bachelor degree. Search engines used for searching thesis documents stored in libraries or digital storage generally use a simple method by returning documents that contain a snippet of the word or are identical to the keywords, so the obtained documents become less relevant. Search results can be clustered with the purpose of presenting the documents in more detailed way and to ease further searches. In order to cluster the search results of Indonesian language thesis, using the title and abstract of the thesis, BM25 word weighting and DBSCAN clustering were used, a clustering method that considers the document sample density point. The test performed by measuring the clustering results using the average silhouette coefficient on the epsilon and MinPts parameters in the DBSCAN method, as well as k1 and b in the BM25 weighting on 4 different scenarios. The test results show that k1 and b parameters on BM25 weighting is quite affecting the quality of the clustering results using DBSCAN method. The best average silhouette coefficient results for each scenario sequentially are 0.722, 0.762, 0.945 and 0.907 by using the best parameters in the form of k1=1.8, b=0.5, epsilon=0.1 and MinPts=5 in the first scenario. k1=1.9, b=0.5, epsilon=0.1 and MinPts=5 in the second scenario. k1=1.4, b=0.55, epsilon=0.1 and MinPts=5 in the third scenario and k1=1.8, b=0.65, epsilon=0.1 and MinPts=5 in the fourth scenario