Mokslas: Lietuvos Ateitis (Feb 2020)

Dataset for evaluation of the performance of the methods of sound source localization algorithms using tetrahedral microphone arrays

  • Saulius Sakavičius

DOI
https://doi.org/10.3846/mla.2020.11462
Journal volume & issue
Vol. 12

Abstract

Read online

For the development and evaluation of a sound source localization and separation methods, a concise audio dataset with complete geometrical information about the room, the positions of the sound sources, and the array of microphones is needed. Computer simulation of such audio and geometrical data often relies on simplifications and are sufficiently accurate only for a specific set of conditions. It is generally desired to evaluate algorithms on real-world data. For a three-dimensional sound source localization or direction of arrival estimation, a non-coplanar microphone array is needed.Simplest and most general type of non-coplanar array is a tetrahedral array. There is a lack of openly accessible realworld audio datasets obtained using such arrays. We present an audio dataset for the evaluation of sound source localization algorithms, which involve tetrahedral microphone arrays. The dataset is complete with the geometrical information of the room, the positions of the sound sources and the microphone array. Array audio data was captured for two tetrahedral microphone arrays with different distances between microphones and one or two active sound sources. The dataset is suitable for speech recognition and direction-of-arrival estimation, as the signals used for sound sources were speech signals. Duomenų rinkinys garso šaltinio lokalizavimo, taikant tetraedrines mikrofonų gardeles, metodų charakteristikoms tirti Santrauka Garso šaltinio lokalizavimo ir išskyrimo algoritmams kurti ir charakteristikoms tirti reikalingas nuosekliai sudarytas garso duomenų rinkinys, papildytas informacija apie akustines patalpos savybes, garso šaltinių ir mikrofonų gardelės padėtis. Dažnai tokie garso ir geometriniai duomenys gaunami atliekant kompiuterinę emuliaciją, tačiau dauguma emuliacijos metodų grindžiami supaprastinimais ir yra tikslūs tik tam tikromis sąlygomis. Todėl garso šaltinio lokalizavimo ir išskyrimo algoritmų veikimą išsamiai įvertinti galima tik taikant realius garso duomenis. Siekiant nustatyti garso šaltinio padėtį ar sklidimo kryptį erdvėje, reikalinga mikrofonų gardelė, kurios elementai yra nekomplanarūs. Paprasčiausias ir bendriausias nekomplanarios gardelės tipas yra tetraedrinė gardelė. Šiuo metu nėra laisvai prieinamo garso ir geometrinių duomenų rinkinio, surinkto naudojant tokio tipo mikrofonų gardeles. Šiame straipsnyje pristatomas duomenų rinkinys, skirtas garso šaltinio lokalizavimo ir išskyrimo algoritmams tirti naudojant tetraedrines mikrofonų gardeles. Duomenų rinkinį sudaro garso duomenys ir juos atitinkanti geometrinė informacija: patalpos matmenys, garso šaltinių ir mikrofonų gardelės padėtys patalpos atžvilgiu. Garso duomenys buvo surinkti naudojant dvi tetraedrines mikrofonų gardeles su skirtingais atstumais tarp mikrofonų, esant vienam arba dviem vienu metu aktyviems garso šaltiniams. Garso šaltiniais buvo atkuriamas žmogaus kalbos signalas, todėl pristatomas duomenų rinkinys yra tinkamas kalbos atpažinimo ir sklidimo krypties nustatymo algoritmams tirti. Reikšminiai žodžiai: garso duomenų rinkinys, garso šaltinio lokalizavimas, patalpos akustika, tetraedrinė mikrofonų gardelė, kalbos atpažinimas, garso šaltinio išskyrimas.

Keywords