Jurnal Teknologi Informasi dan Ilmu Komputer (Dec 2023)
Penerapan Text Augmentation untuk Mengatasi Data yang Tidak Seimbang pada Klasifikasi Teks Berbahasa Indonesia
Abstract
Klasifikasi teks merupakan salah satu tugas yang fundamental dalam natural language processing (NLP). Dalam dunia nyata, data dan sumber daya yang tersedia untuk pengklasifikasian teks terbatas. Salah satu kendala pada data berlabel yang digunakan yaitu imbalanced data atau data yang tidak seimbang. Permasalahan data yang tidak seimbang memengaruhi kinerja dan keakuratan model karena model hanya terfokus pada data dengan label mayoritas. Sementara itu, data berlabel minoritas cenderung diklasifikasikan tidak tepat oleh model, padahal untuk beberapa kasus kemampuan model untuk memprediksi data dengan label minoritas lebih penting. Untuk mengatasinya, penelitian ini melakukan pendekatan oversampling yaitu menambah data untuk menyeimbangkan dataset. Penerapan oversampling pada data teks dikenal dengan text augmentation. Pada penelitian ini dilakukan dua teknik text augmentation yaitu synonym replacement dan back translation pada beberapa kondisi ketidakseimbangan dan skenario augmentasi terhadap dua dataset. Berdasarkan hasil eksperimen, augmentasi mampu meningkatkan skor F1 label minoritas. Augmentasi lebih signifikan dalam dataset kecil dan kondisi ketidakeimbangan yang parah. Hasil dari teknik back translation lebih baik dibandingkan dengan teknik synonym replacement. Selain itu, hasil penelitian menunjukkan bahwa skenario jumlah augmentasi juga berpengaruh terhadap kenaikan skor F1. Semakin banyak jumlah data augmentasi belum tentu memberikan hasil yang semakin baik karena terindikasi overfitting pada data latih. Kata-kata yang tidak normal atau tidak baku pada dataset teks informal memengaruhi proses augmentasi sehingga hasil teks sintetis yang diperoleh tidak sebaik pada dataset teks formal. Abstract Text classification is one of the fundamental tasks in natural language processing (NLP). However, data and resources for text classification are limited in actual application. One of the constraints on the dataset for text classification is imbalanced data, or the condition when one label has more data than the others. Imbalanced data affects the performance and accuracy of the model because the model only focuses on the majority label data. Meanwhile, the minority label data tends to be classified incorrectly by the model, even though, in some cases, the model's ability to predict data with minority labels is more important. To solve this problem, this research uses an oversampling approach to augment data and balance the dataset. The application of oversampling text data is known as text augmentation. This research uses two text augmentation techniques, synonym replacement and back translation, applied to several imbalance conditions and augmentation scenarios for two datasets. Based on experimental results, augmentation can increase the F1 score of the minority class. Augmentation is more significant in small datasets and severe imbalance conditions. The results of the back translation technique are better than synonym replacement. In addition, this study's results show that the number of augmentation scenarios affects an increase in F1-score. However, increasing the augmentation data cannot ensure the results are getting better. Furthermore, words that are not normal in informal text datasets affect the augmentation process, so the results of synthetic text are better than the formal text dataset.