融合音画同步的唇形合成研究

靳聪, 王洁, 郭子淳, 王晶

doi:10.11959/j.issn.2096-6652.202335

智能科学与技术学报 (Sep 2023)

融合音画同步的唇形合成研究

靳聪, 王洁, 郭子淳, 王晶

Affiliations

靳聪, 王洁, 郭子淳, 王晶

DOI: https://doi.org/10.11959/j.issn.2096-6652.202335
Journal volume & issue: Vol. 5, no. 3
pp. 397 – 405

Abstract

Read online

以视频为载体的信息传播方式兴盛发展，视频的音画同步逐渐成为衡量视频质量的重要标准。深度合成技术在国际传播领域不断进入大众视野，融合音画同步的唇形合成技术吸引了越来越多的关注。现有唇形合成模型主要是基于静态图像的唇形合成，对于动态视频的合成效果不佳，且大多采用英文数据集进行训练，导致中文普通话合成效果较差。针对这些问题，基于对Wav2Lip唇形合成模型的研究，对其进行中文语境下的优化实验，通过多组实验测试了不同路线的训练模型效果，为后续Wav2Lip系列研究提供重要的参考价值。实现由语音驱动到文字驱动的唇形合成，并对唇形合成在虚拟数字人等多领域的应用展开讨论，为唇形合成技术更广阔的应用与发展奠定基础。

Published in 智能科学与技术学报

ISSN: 2096-6652 (Print)
Publisher: POSTS&TELECOM PRESS Co., LTD
Country of publisher: China
LCC subjects: Science: Mathematics: Instruments and machines: Electronic computers. Computer science
Website: http://www.cjist.com.cn

About the journal

Abstract

Keywords