Известия Алтайского государственного университета (Mar 2022)

Разработка сверточной нейронной сети для классификации амплитудно-частотных характеристик аудиосигналов

  • Владислав Николаевич Попов,
  • Павел Сергеевич Ладыгин,
  • Валентин Витальевич Карев,
  • Яна Игоревна Борцова

DOI
https://doi.org/10.14258/izvasu(2022)1-19
Journal volume & issue
no. 1(123)
pp. 116 – 120

Abstract

Read online

Применена технология глубокой сверточной нейронной сети к обработке аудиофайлов, в частности для классификации амплитудно-частотных характеристик аудиосигналов. Сопоставление аудиофрагментов между собой сведено к решению задачи верификации дикторов. В качестве набора данных для обучения глубокой сверточной нейронной сети собрана большая репрезентативная выборка аудиосигналов и дополнена удовлетворяющим требованиям набором данных Free Music Archive, который содержит свободно распространяемые аудиозаписи музыкальных произведений. Для предотвращения переобучения предсказательной модели применены четыре типа аугментации, в том числе гауссовый шум, реверберация, изменение частоты основного тона, изменение темпа аудиосигнала. В качестве предсказательной модели была взята архитектура CQT-Net. Для сравнения векторов признаков используется косинусное сходство. Качество верификации было протестировано на двух выборках, состоящих из 1500 аудиозаписей, которые не использовались во время обучения. Построены Det-кривые для наборов данных, в том числе тестовых с измененным темпом и с измененным питчем. В роли метрики качества модели использован равный уровень ошибок (коэффициент Equal Error Rate). Оценена вероятность выявления наиболее применяемых искажений аудиосигналов в амплитудно-частотной области (не менее 92 %), что говорит о надежности полученной системы.

Keywords