Penanganan Imbalanced Dataset untuk Klasifikasi Komentar Program Kampus Merdeka Pada Aplikasi Twitter

Cindy Magnolia; Ade Nurhopipah; Bagus Adhi Kusuma

doi:10.15294/edukomputika.v9i2.61854

Edu Komputika Journal (Feb 2023)

Penanganan Imbalanced Dataset untuk Klasifikasi Komentar Program Kampus Merdeka Pada Aplikasi Twitter

Cindy Magnolia,
Ade Nurhopipah,
Bagus Adhi Kusuma

Affiliations

Cindy Magnolia: Amikom Purwokerto University
Ade Nurhopipah: Universitas Amikom Purwokerto
Bagus Adhi Kusuma: Universitas Amikom Purwokerto

DOI: https://doi.org/10.15294/edukomputika.v9i2.61854
Journal volume & issue: Vol. 9, no. 2
pp. 105 – 113

Abstract

Read online

Imbalanced dataset merupakan hal yang sering ditemukan secara alami dalam proses penambangan data. Kondisi ini sangat mempengaruhi keakuratan klasifikasi data seperti yang terjadi dalam klasifikasi komentar program Kampus Merdeka yang peneliti lakukan. Penelitian ini akan fokus pada penanganan Imbalanced dataset untuk meningkatkan kinerja klasifikasi komentar yang berasal dari aplikasi Twitter. Data diklasifikasikan ke dalam empat kelas yaitu kelas 0 (untuk informasi), kelas 1 (untuk opini), kelas 2 (untuk pertanyaan), dan kelas 3 (untuk out of topic). Metode yang digunakan untuk balancing dataset adalah Undersampling, Oversampling menggunakan SMOTE dan ADASYN, serta Random Combination Sampling. Evaluasi performa dilakukan menggunakan algoritma Support Vector Machine (SVM) dengan perbandingan komposisi data training dan testing 80:20. Metode pembobotan data yang digunakan adalah Term Frequency-Inverse Document Frequency (TF-IDF) dengan nilai max_features 3000, 5000, dan 7000. Hasil pengujian awal menunjukan bahwa nilai akurasi dan F1-score pada Imbalanced dataset secara berurut-urut adalah 0,7 dan 0,7. Sedangkan metode penanganan Imbalanced dataset dapat meningkatkan nilai F1-score, kecuali pada penerapan metode Undersampling. Metode terbaik ditunjukan oleh penerapan ADASYN dengan nilai akurasi dan F1-score berurut-urut sebesar 0,9 dan 0,9. Penggunaan max_features pada TF-IDF juga mempengaruhi hasil performa klasifikasi, dengan max_features terbaik ditunjukan pada jumlah 5000.

Published in Edu Komputika Journal

ISSN: 2252-6811 (Print); 2599-297X (Online)
Publisher: Universitas Negeri Semarang
Country of publisher: Indonesia
LCC subjects: Education: Special aspects of education; Technology: Technology (General): Industrial engineering. Management engineering: Information technology
Website: http://journal.unnes.ac.id/sju/index.php/edukom

About the journal

Abstract

Keywords