Jurnal Komputer Terapan (Jun 2021)
Pemodelan CNN Untuk Deteksi Emosi Berbasis Speech Bahasa Indonesia
Abstract
Perkembangan teknologi menunjukkan semakin banyak kebutuhan perangkat yang mampu menjalankan interaksi antara manusia dengan computer secara cerdas. Satu contohnya adalah sistem pengenalan emosi dengan computer. Di dalamnya diperlukan kemampuan untuk melakukan pengenalan, penafsiran, dan memberikan respons emosi yang diekspresikan dalam ucapan. Tetapi sampai saat ini penelilitan speech emotion recognition (SER) yang berbasis bahasa Indonesia masih sangat sedikit. Hal ini disebabkan keterbatasan korpus data berbahasa Indonesia untuk SER. Pada penelitian ini dibuat sistem SER dengan mengambil dataset dari TV series berbahasa Indonesia. Sistem dirancang dengan kemampuan untuk melakukan proses klasifikasi emosi, yaitu empat kelas label emosi marah, senang, netral dan sedih. Untuk implementasinya digunakan metode deep learning, yang dalam hal ini dipilih metode CNN. Pada sistem ini input berupa kombinasi dari tiga fitur, yaitu MFCC, frekuensi fundamental, dan RMSE. Dari eksperimen yang telah dijalankan telah diperoleh hasil terbaik untuk sistem SER berbahasa Indonesia dengan menggunakan input MFCC + frekuensi fundamental, yang menunjukkan tingkat akurasi sebesar 85%. Sedangkan ketika hanya menggunakan input MFCC memiliki tingkat akurasi sampai 83%. Sementara itu ketika dipaksakan dengan kombinasi ketiga input MFCC+ F0+ RMSE mengalami penurunan kinerja dan hanya mencapai akurasi 78% ,dan akurasi terendah menggunakan fitur MFCC + RMSE yaitu 72%. Dari study awal ini diharapkan mampu memberikan gambaran bagi para peneliti di bidang SER, tentang bagaimana memilih fitur sinyal wicara sebagai input di dalam pengujian dan mempermudah untuk langkah pengembangan penelitiannya.
Keywords