智能科学与技术学报 (Sep 2021)
基于超轻量通道注意力的端对端语音增强方法
Abstract
全卷积时域音频分离网络(Conv-TasNet)是近年提出的一种主流的端对端语音分离模型。Conv-TasNet利用膨胀卷积扩大感受野,使其在空间上可以融合更多语音特征,极大地提高了网络的语音分离性能,但同时忽略了信息在不同卷积通道间的重要性。基于此,提出一种基于超轻量通道注意力的端对端语音增强方法,该方法结合了Conv-TasNet和通道注意力,并在Conv-TasNet编解码器部分增加一组滤波器来提高网络语音特征提取能力,使卷积神经网络可以更有效地结合空间信息和通道信息来提高语音增强效果。实验验证了所提方法的模型容量在只增加了约0.02%的情况下,语音增强性能获得了有效提升。