Jurnal Nasional Teknik Elektro dan Teknologi Informasi (May 2020)
Kombinasi Fitur Multispektrum Hilbert dan Cochleagram untuk Identifikasi Emosi Wicara
Abstract
Dalam interaksi perilaku sosial, suara manusia menjadi salah satu saluran utama pembawa atribut ekspresi emosi kondisi mentalnya. Suara manusia merupakan hasil olah vokal yang tersusun dengan disertai urutan kata demi kata, hingga menghasilkan kalimat dalam rupa pola wicara yang memiliki makna ekspresi kondisi psikologisnya. Pola tersebut memberikan karakteristik khusus untuk proses identifikasi biometrik yang menggunakan pola wicara. Teknik visualisasi berupa citra spektrum telah terbukti mampu memberikan representasi hasil olah sinyal wicara. Makalah ini mengidentifikasi jenis emosi pada wicara menggunakan kombinasi fitur multi spektrum Hilbert dan cochleagram. Spektrum Hilbert merepresentasikan hasil transformasi Hilbert-Huang (HHT) untuk memproses sinyal emosi wicara yang nonlinear dan nonstasioner secara instan dengan fungsi mode intrinsik. Dengan meniru cara kerja komponen telinga luar dan tengah, sinyal emosi wicara dipecah menjadi frekuensi yang berbeda secara alami dengan hasil representasinya berupa cochleagram. Kedua masukan berupa spektrum wicara diproses menggunakan metode Convolutional Neural Networks (CNN) yang dikenal terbaik dalam mengenali data citra karena merepresentasikan mekanisme kerja retina manusia, serta metode Long Short-Term Memory (LSTM). Berdasarkan hasil uji coba dengan tiga himpunan data (dataset) publik emosi wicara yang terbagi ke dalam delapan kelas emosi, diperoleh akurasi sebesar 90,97% dengan CNN dan 80,62% dengan LSTM.
Keywords