Науковий вісник НЛТУ України (Dec 2024)
Ефективні методи відокремлення голосу від шуму на підставі глибокого навчання
Abstract
Досліджено та проведено порівняльний аналіз двох сучасних методів відокремлення голосу від шуму на підставі глибокого навчання: моделей, що базуються на рекурентних нейронних мережах, та моделей на підставі трансформерів. Запропоновано гібридну модель, яка увібрала кращі властивості обох моделей. Дослідження охоплює актуальну проблему покращення якості мовлення в різних сферах, таких як слухові апарати, мобільний зв'язок та автоматичне розпізнавання мовлення, де важливим є відокремлення цільової мови від фонових шумів. Розглянуто архітектуру, особливості, алгоритми, переваги та недоліки моделей LSTM (англ. Long Short-Term Memory), SepFormer та гібридної архітектури. Також описано складнощі, що виникають під час навчання моделей нейронних мереж. Проаналізовано останні дослідження, які підтверджують ефективність підходів відокремлення голосу від шуму з використанням досліджуваних моделей. Експериментальні результати показали, за яких умов варто використовувати ту чи іншу з розглянутих моделей, та чому розвиток гібридних моделей може мати значну цінність у дослідженнях. Розглянуто практичні особливості використання моделей, зокрема підготовку та оброблення вхідних даних, навчання моделей та оцінювання результатів. Для оцінювання результатів дослідження застосовано метрики оцінювання якості звуку, які є важливими інструментами для покращення якості звуку в різних технологічних застосуваннях. Проведено оцінювання та порівняння якості відокремленого мовлення та його розбірливість у розглянутих моделях. Описано перспективи подальшого розвитку дослідження, інтеграцію нових джерел даних та покращення методів оброблення аудіосигналів. Проведене дослідження робить значний внесок у розуміння ефективності застосування різних методів відокремлення голосу від шуму, надає рекомендації щодо вибору найпридатнішої моделі для конкретних умов, а також пропонує гібридне рішення для завдань з потребою отримати найкращий результат. Отримані результати дослідження можуть бути корисними для науковців та інженерів, які працюють у галузі оброблення сигналів та розроблення аудіосистем, сприяючи підвищенню якості та ефективності технологій оброблення мовлення.
Keywords