基于多文本描述的图像生成方法

聂开琴, 倪郑威

doi:10.11959/j.issn.1000-0801.2024142

Dianxin kexue (May 2024)

基于多文本描述的图像生成方法

聂开琴, 倪郑威

Affiliations

聂开琴, 倪郑威

DOI: https://doi.org/10.11959/j.issn.1000-0801.2024142
Journal volume & issue: Vol. 40, no. 5
pp. 73 – 85

Abstract

Read online

针对单条文本描述生成的图像质量不高且存在结构错误的问题进行研究，采用多阶段生成对抗网络模型，并提出对不同文本序列进行插值操作，从多条文本描述中提取特征，以丰富给定的文本描述，使生成图像具有更多细节。为了生成与文本更为相关的图像，引入了多文本深度注意多模态相似度模型以得到注意力特征，并与上一层视觉特征联合作为下一层的输入，从而提升生成图像的真实程度和文本描述之间的语义一致性。为了能够让模型学会协调每个位置的细节，引入了自注意力机制，让生成器生成更加符合真实场景的图像。优化后的模型在CUB和MS-COCO数据集上进行验证，生成的图像不仅结构完整，语义一致性更强，视觉上的效果更加丰富多样。

Published in Dianxin kexue

ISSN: 1000-0801 (Print)
Publisher: Beijing Xintong Media Co., Ltd
Country of publisher: China
LCC subjects: Technology: Electrical engineering. Electronics. Nuclear engineering: Telecommunication
Website: http://www.infocomm-journal.com/dxkx/EN/1000-0801/home.shtml

About the journal

Abstract

Keywords