智能科学与技术学报 (Sep 2023)

融合音画同步的唇形合成研究

  • 靳聪, 王洁, 郭子淳, 王晶

DOI
https://doi.org/10.11959/j.issn.2096-6652.202335
Journal volume & issue
Vol. 5, no. 3
pp. 397 – 405

Abstract

Read online

以视频为载体的信息传播方式兴盛发展,视频的音画同步逐渐成为衡量视频质量的重要标准。深度合成技术在国际传播领域不断进入大众视野,融合音画同步的唇形合成技术吸引了越来越多的关注。现有唇形合成模型主要是基于静态图像的唇形合成,对于动态视频的合成效果不佳,且大多采用英文数据集进行训练,导致中文普通话合成效果较差。针对这些问题,基于对Wav2Lip唇形合成模型的研究,对其进行中文语境下的优化实验,通过多组实验测试了不同路线的训练模型效果,为后续Wav2Lip系列研究提供重要的参考价值。实现由语音驱动到文字驱动的唇形合成,并对唇形合成在虚拟数字人等多领域的应用展开讨论,为唇形合成技术更广阔的应用与发展奠定基础。

Keywords