Ranah: Jurnal Kajian Bahasa (Dec 2021)
K-Medoids Clustering untuk Pembentukan Database Stopword Bahasa Jawa
Abstract
Stopword is a word that can be ignored in the natural language process. This word removal process does not affect the text analysis process. The technique used to remove stopword is called Stopword Removal. This technique matches words to a stopword list. If the word is in the list it will be deleted. Javanese language to date still has a limited list of stopword. This study aims to form a list of stopword using cluster techniques namely K-medoids clustering. This technique groups words by occurrence in Javanese text. Each cluster result is tested by matching it with a stopword of javanese expert identification. The results of this study suggest that the stopword produced by k-medoids clustering with a value of K=13 has an accuracy of 70.5%. Abstrak Stopword merupakan kata yang bisa diabaikan dalam permrosesan bahasa alami. Proses penghapusan kata ini ini tidak mempengaruhi proses analisis teks. Teknik yang digunakan untuk menghapus stopword disebut Stopword Removal. Teknik ini mencocokkan kata dengan daftar stopword (stoplist). Apabila kata tersebut terdapat pada daftar maka akan dihapus. Bahasa jawa sampai saat ini masih memiliki daftar stopword yang terbatas. Penelitian ini bertujuan membentuk daftar stopword menggunakan teknik cluster yakni K-medoids clustering. Teknik ini mengelompokkan kata berdasarkan kemunculan dalam teks bahasa Jawa. Dalam penerapannya, metode yang digunakan dalam penelitian ini terdiri dari lima tahap. Tahapan penelitian tersebut dimulai dari pengumpulan dataset, preprocessing data, clustering, dan terakhir adalah evaluasi. Setiap hasil cluster diuji dengan mencocokkannya dengan stopword hasil identifikasi ahli bahasa Jawa. Hasil penelitian ini menunujkkan bahwa stopword yang dihasilkan k-medoids clustering dengan nilai K=13 yang memiliki akurasi sebesar 70,5%.
Keywords