智能科学与技术学报 (Sep 2023)
融合音画同步的唇形合成研究
Abstract
以视频为载体的信息传播方式兴盛发展,视频的音画同步逐渐成为衡量视频质量的重要标准。深度合成技术在国际传播领域不断进入大众视野,融合音画同步的唇形合成技术吸引了越来越多的关注。现有唇形合成模型主要是基于静态图像的唇形合成,对于动态视频的合成效果不佳,且大多采用英文数据集进行训练,导致中文普通话合成效果较差。针对这些问题,基于对Wav2Lip唇形合成模型的研究,对其进行中文语境下的优化实验,通过多组实验测试了不同路线的训练模型效果,为后续Wav2Lip系列研究提供重要的参考价值。实现由语音驱动到文字驱动的唇形合成,并对唇形合成在虚拟数字人等多领域的应用展开讨论,为唇形合成技术更广阔的应用与发展奠定基础。
Keywords