Jurnal Teknologi Informasi dan Ilmu Komputer (Aug 2023)
Peningkatan Performa Ensemble Learning pada Segmentasi Semantik Gambar dengan Teknik Oversampling untuk Class Imbalance
Abstract
Perkembangan teknologi dan gaya hidup manusia yang semakin tinggi menghasilkan data-data yang berlimpah. Data-data tersebut dapat berbentuk data yang terstruktur dan tidak terstruktur. Data gambar termasuk dalam data yang tidak terstruktur. Aktifitas dan objek yang terekam dalam suatu gambar beraneka ragam. Secara normal, mata manusia dapat dengan mudah membedakan antara foreground dan background dari suatu gambar, tetapi komputer membutuhkan pembelajaran dalam membedakan keduanya. Segmentasi gambar adalah salah satu bidang dalam computer vision yang membahas bagaimana cara komputer mempelajari dan mengenali segmen dari suatu gambar sesuai label yang ditentukan. Dalam kenyataannya banyak data yang mempunyai class atau label yang tidak seimbang, tentunya akan mempengaruhi tingkat akurasi dari suatu prediksi. Dalam riset ini membahas bagaimana meningkatkan akurasi segmentasi semantik gambar pada metode ensemble learning untuk menangani masalah data yang tidak seimbang dalam segmentasi gambar. Teknik yang digunakan adalah sintetis oversampling sehingga menghasilkan data yang seimbang dan akurasi yang tinggi. Metode ensemble learning yang digunakan adalah Random Forest dan Light Gradien Boosting Machine (LGBM). Dengan menggunakan dataset Penn-Fudan Database for Pedestrian yang mengandung imbalanced class. Penggunaan teknik sintetis oversampling dapat memperbaikki tingkat akurasi pada class minoritas. Pada algoritma random forest mengalami peningkatan akurasi sebesar 37 % sedangkan pada algoritma LGBM meningkat sebesar 41 %. Abstract The development of technology and the increasingly high lifestyle of humans produce abundant data. These data can be in the form of structured and unstructured data. Image data is included in unstructured data. The activities and objects recorded in a picture are varied. Normally, the human eye can easily distinguish between the foreground and background of an image, but computers need learning to distinguish between the two. Image segmentation is one of the fields in computer vision that discusses how computers learn and recognize segments of an image according to specified labels. In reality, a lot of data has unbalanced classes or labels, of course, it will affect the accuracy of a prediction. This research discusses how to improve the accuracy of image semantic segmentation in the ensemble learning method to deal with the problem of unbalanced data in image segmentation. The technique used is synthetic oversampling so as to produce balanced data and high accuracy. The ensemble learning methods used are Random Forest and Light Gradient Boosting Machine (LGBM). By using the Penn-Fudan Database for Pedestrian dataset which contains a imbalanced class. The use of synthetic oversampling techniques can improve the level of accuracy in minority classes. The random forest algorithm experienced an increase in accuracy by 37% while the LGBM algorithm increased by 41%.