Jurnal Teknologi Informasi dan Ilmu Komputer (Apr 2024)

Sistem Identifikasi Pembicara Berbahasa Indonesia Menggunakan X-Vector Embedding

  • Alim Misbullah,
  • Muhammad Saifullah Sani,
  • Husaini,
  • Laina Farsiah,
  • Zahnur,
  • Kikye Martiwi Sukiakhy

DOI
https://doi.org/10.25126/jtiik.20241127866
Journal volume & issue
Vol. 11, no. 2

Abstract

Read online

Penyemat pembicara adalah vektor yang terbukti efektif dalam merepresentasikan karakteristik pembicara sehingga menghasilkan akurasi yang tinggi dalam ranah pengenalan pembicara. Penelitian ini berfokus pada penerapan x-vectors sebagai penyemat pembicara pada sistem identifikasi pembicara berbahasa Indonesia yang menggunakan model speaker identification. Model dibangun dengan menggunakan dataset VoxCeleb sebagai data latih dan dataset INF19 sebagai data uji yang dikumpulkan dari suara mahasiswa dan mahasiswi Informatika Universitas Syiah Kuala angkatan 2019. Fitur-fitur yang digunakan diekstrak dari dataset audio dengan menggunakan dua jenis konfigurasi mel frequency cepstral coefficients (MFCC). Untuk membangun model, fitur-fitur diekstrak dengan menggunakan MFCC, dihitung voice activity detection (VAD), dilakukan augmentasi dan normalisasi fitur menggunakan cepstral mean and variance normalization (CMVN) serta dilakukan filtering. Sedangkan proses pengujian model hanya membutuhkan fitur-fitur yang diekstrak dengan menggunakan MFCC dan dihitung VAD. Selanjutnya, dibangun empat model dengan cara mengombinasikan dua jenis konfigurasi MFCC dan dua jenis arsitektur Deep Neural Network (DNN) yang memanfaatkan Time Delay Neural Network (TDNN). Model terbaik dipilih berdasarkan akurasi tertinggi yang dihitung menggunakan metrik equal error rate (EER) dan durasi ekstraksi x-vectors tersingkat dari keempat model. Nilai EER dari model yang terbaik untuk dataset VoxCeleb1 bagian test sebesar 3,51%, inf19_test_td sebesar 1,3%, dan inf19_test_tid sebesar 1,4%. Durasi ekstraksi x-vectors menggunakan model terbaik untuk dataset data train berdurasi 6 jam 42 menit 39 detik, VoxCeleb1 bagian test berdurasi 2 menit 24 detik, inf19_enroll berdurasi 18 detik, inf19_test_td berdurasi 25 detik, dan inf19_test_tid berdurasi 9 detik. Arsitektur DNN kedua dan konfigurasi MFCC kedua yang telah dirancang menghasilkan model yang lebih kecil, akurasi yang lebih baik terutama untuk dataset pembicara berbahasa Indonesia, dan durasi ekstraksi x-vectors yang lebih singkat.

Keywords