Aplikasi Pencarian Hadis Menggunakan Vector Space Model Dengan Pembobotan TF-IDF Dan Confix-Stripping Stemmer

Novi Prisma Yunita

doi:10.25126/jtiik.20231036736

Jurnal Teknologi Informasi dan Ilmu Komputer (Jul 2023)

Aplikasi Pencarian Hadis Menggunakan Vector Space Model Dengan Pembobotan TF-IDF Dan Confix-Stripping Stemmer

Novi Prisma Yunita

Affiliations

Novi Prisma Yunita: Universitas AMIKOM Yogyakarta, Yogyakarta

DOI: https://doi.org/10.25126/jtiik.20231036736
Journal volume & issue: Vol. 10, no. 3

Abstract

Read online

Hadis adalah sumber ajaran Islam kedua setelah al-Qur’an. Kedudukannya yakni setelah Al-Qur’an, sebelum Ijma’ dan Qiyas. Saat ini hadis sudah dapat diakses melalui berbagai platform digital, tetapi fitur pencarian yang disediakan masih sebatas data retrieval di mana hasil pencarian hanya didasarkan pada keyword pencarian tanpa memperhitungkan relevansi antara keyword dengan dokumen hasil pencarian. Penelitian ini bertujuan membangun aplikasi pencarian hadis yang dapat digunakan untuk menemukan hasil pencarian yang relevan dengan keyword pencarian. Aplikasi pencarian dibangun menggunakan metode Information Retrieval antara lain Vector Space Model (VSM) dan Term Frequency – Invers Document Frequency (TF-IDF) untuk membangun ruang vektor dan pembobotan term, dan stemming menggunakan algoritma Confix-Stripping Stemmer (CS Stemmer). Selain itu, teknik pre-processing diterapkan menggunakan stopwords removal, dan pengukuran similarity menggunakan Inner Product Similarity Measurement. Penelitian ini menggunakan 162 dokumen hadis dari kitab Bulughul Marom. Dari sejumlah 6006 kata dalam dokumen, stopwords removal berhasil menghapus total 92 stopwords. Pengujian CS Stemmer terhadap 673 kosakata unik dalam dokumen, berhasil dilakukan dengan benar kepada 579 kata unik. Tingkat keberhasilan CS Stemmer adalah sebesar 78.6%. Matrix of words yang terbentuk dari VSM dan TF-IDF adalah matrik dengan ordo 673x 162. Pengujian aplikasi pencarian hadis dilakukan dengan memasukkan keyword yang berbeda ke dalam form pencarian. Hasil pengujian menunjukkan adanya relevansi antara keyword dengan dokumen hasil pencarian. Yakni dokumen dengan nilai inner product tertinggi adalah dokumen paling relevan dengan keyword pencarian. Semakin banyak kata yang muncul dalam dokumen, dan sesuai dengan keyword pencarian maka nilai relevansinya semakin tinggi. Abstract Hadith is the second source of Islamic teachings after the Al-Qur'an. Its position is after the Qur'an, before Ijma 'and Qiyas. At present, the hadiths can be accessed through various digital platforms. But the search features are still limited to data retrieval, where search results are only based on search keywords without considering the relevance between the keywords and the search results document. This study aims to build a hadith search application that can be used to find search results relevant to the search keywords. The search application was created using the Information Retrieval method. Including Vector Space Model (VSM) and Term Frequency – Inverse Document Frequency (TF-IDF) to create vector space and term weighting and stemming using the Confix-Stripping Stemmer (CS Stemmer) algorithm. In addition, pre-processing techniques use stopwords removal, and similarity measurements use Inner Product Similarity Measurement. This study used 162 hadith documents from the Bulughul Marom book. Of the 6006 words in the document, stopword removal succeeded in removing 92 stopwords. The CS Stemmer test for 673 unique vocabularies in the document was successfully carried out correctly for 579 unique words. The CS Stemmer success rate is 78.6%. The matrix of words formed from VSM and TF-IDF is a matrix of the order 673x 162. The hadith search application is tested by entering different keywords in the search form. The test results show relevance between keywords and search results documents. That is, the document with the highest inner product value is the document most relevant to the search keyword—the more words that appear in the document and keyword, the higher the relevance value.

Published in Jurnal Teknologi Informasi dan Ilmu Komputer

ISSN: 2355-7699 (Print); 2528-6579 (Online)
Publisher: University of Brawijaya
Country of publisher: Indonesia
LCC subjects: Technology: Technology (General): Industrial engineering. Management engineering: Information technology
Website: http://jtiik.ub.ac.id

About the journal