Науковий вісник НЛТУ України (Dec 2024)

Ефективні методи відокремлення голосу від шуму на підставі глибокого навчання

  • Й. З. Піскозуб,
  • Б. В. Шамановський

DOI
https://doi.org/10.36930/40340815
Journal volume & issue
Vol. 34, no. 8

Abstract

Read online

Досліджено та проведено порівняльний аналіз двох сучасних методів відокремлення голосу від шуму на підставі глибокого навчання: моделей, що базуються на рекурентних нейронних мережах, та моделей на підставі трансформерів. Запропоновано гібридну модель, яка увібрала кращі властивості обох моделей. Дослідження охоплює актуальну проблему покращення якості мовлення в різних сферах, таких як слухові апарати, мобільний зв'язок та автоматичне розпізнавання мовлення, де важливим є відокремлення цільової мови від фонових шумів. Розглянуто архітектуру, особливості, алгоритми, переваги та недоліки моделей LSTM (англ. Long Short-Term Memory), SepFormer та гібридної архітектури. Також описано складнощі, що виникають під час навчання моделей нейронних мереж. Проаналізовано останні дослідження, які підтверджують ефективність підходів відокремлення голосу від шуму з використанням досліджуваних моделей. Експериментальні результати показали, за яких умов варто використовувати ту чи іншу з розглянутих моделей, та чому розвиток гібридних моделей може мати значну цінність у дослідженнях. Розглянуто практичні особливості використання моделей, зокрема підготовку та оброблення вхідних даних, навчання моделей та оцінювання результатів. Для оцінювання результатів дослідження застосовано метрики оцінювання якості звуку, які є важливими інструментами для покращення якості звуку в різних технологічних застосуваннях. Проведено оцінювання та порівняння якості відокремленого мовлення та його розбірливість у розглянутих моделях. Описано перспективи подальшого розвитку дослідження, інтеграцію нових джерел даних та покращення методів оброблення аудіосигналів. Проведене дослідження робить значний внесок у розуміння ефективності застосування різних методів відокремлення голосу від шуму, надає рекомендації щодо вибору найпридатнішої моделі для конкретних умов, а також пропонує гібридне рішення для завдань з потребою отримати найкращий результат. Отримані результати дослідження можуть бути корисними для науковців та інженерів, які працюють у галузі оброблення сигналів та розроблення аудіосистем, сприяючи підвищенню якості та ефективності технологій оброблення мовлення.

Keywords