Jurnal Teknologi Informasi dan Ilmu Komputer (Oct 2024)
Arsitektur Sistem Percakapan Otomatis Berbahasa Indonesia dengan Normalisasi Bahasa Informal Menjadi Baku
Abstract
Komunikasi merupakan hal yang paling penting dalam kehidupan sehari-hari. Setiap orang berkomunikasi dengan cara mereka berdasarkan latar belakang serta kedekatan antar pembicara. Oleh karena itu, perkembangan bahasa informal terjadi sangat cepat dan tidak jarang menciptakan kata-kata baru sebagai pengganti bahasa formal. Hal ini menjadi masalah jika dilihat dari perspektif pemrosesan bahasa alami (NLP). NLP umumnya hanya dapat dilakukan dengan bahasa yang formal dan tidak mampu menginterpretasikan makna dari kalimat informal. Maka dari itu, penulis mengusulkan pendekatan untuk memungkinkan mesin memahami bahasa informal dengan melakukan normalisasi bahasa infomal menjadi baku dengan memanfaatkan NLP. Pendekatan yang dilakukan akan melatih model pre-trained GPT-2 berbahasa Indonesia dengan data parallel corpus untuk memahami makna dari bahasa informal dan mampu menerjemahkannya ke dalam bentuk baku. Melalui eksperimen yang dilakukan, pendekatan ini mencapai tingkat akurasi 91% dan dapat menerjemahkan bahasa informal dengan baik. Performa ini dapat diraih dengan konfigurasi hiperparameter yaitu Adam optimizer dengan learning rate 1e-4, batch size sebesar 16 dan dropout rate sebesar 0,5. Abstract Communication is the most essential thing in daily life. Everyone communicates in their own way based on their background and the closeness between speakers. Thus, the development of informal language occurs quickly and it is often to create new words as a substitute for formal language. This is an issue from a natural language processing (NLP) perspective. NLP generally only works with formal language and is unable to interpret the meaning of informal sentences. Therefore, the authors propose an approach to enable machines to understand informal language by normalizing the informal language to standard by utilizing NLP. The approach will train a pre-trained GPT-2 model in Indonesian with parallel corpus data to understand the meaning of informal language and be able to translate it into standardized form. Through experiments, the method achieved 91% accuracy and can translate informal language well. This performance can be achieved with a hyperparameter configuration, namely Adam optimizer with a learning rate of 1e-4, batch size of 16 and dropout rate of 0.5.
Keywords