1. 研究目的与意义
近年来基于计算机视觉的深度学习技术迅猛发展,计算机视觉当中的一些基本问题得到了较好解决,如何根据文本描述生成准确的、稳定的、高分辨率的图像成为研究热点,并具有巨大的应用潜力。因vae(variational auto-encoder)、draw(deep recurrent attention writer)以及gan [14]等主流方法的实现,文本到图像的生成取得了显著进展并能够应用到实际生产生活中,诸如计算机辅助设计、根据文字构建个性头像 [1]、基于事件的社会网络自动生成社会事件的事件描述[10]、图像编辑和视频游戏等。
基于文本生成图像,顾名思义就是从一句描述性文本生成一张与文本内容相对应的图片。实现文本生成图像的主流方法中,gan是近几年最热门的方法,并被著名学者lecun称为“近十年来机器学习领域最令人兴奋的想法” [3]。
gan[14](生成对抗网络)是在2014年由ian j. goodfellow等人提出的一种无监督的深度学习模型,gan通过生成器和鉴别器的相互博弈产生输出,然而,由于生成数据是根据随机噪声产生的,故而并不完全可控。为解决这一问题,m. mirza等人在同年提出了conditional gan(cgan) [11],即条件生成对抗网络,使其可以生成低分辨率图像。
2. 研究内容和预期目标
研究内容:
(1)熟悉生成对抗网络(gan)的基本知识和原理,并能够实现gan的基本方法;
(2)研究基于gan进行故事图像序列生成方法,并对其进行实现,生成逼真的图像序列;
3. 研究的方法与步骤
当给定一个多句段落(故事),预备使用递归神经网络(rnn)将先前生成的图像合并到当前句子的图像生成中。上下文信息是通过上下文编码模块提取的,包括一个gru单元和textgist单元。上下文编码器将当前句子和故事编码向量转换为高维特征向量(gist),以便进一步生成图像。随着故事的进行,gist会动态更新,以反映故事流中对象和场景的变化。在text2gist组件中,内容描述被转换成一个过滤器并适应于故事,这样就可以通过调整过滤器来优化混合过程。
为了确保所生成图像序列的一致性,采用两级gan框架,使用图像级判别器来衡量句子及其生成的图像的相关性,并使用故事级判别器来度量所生成的图像序列与整个故事之间的整体一致性。整体框图如图 1所示。
4. 参考文献
[1] 高文超,任圣博,田驰,赵珊珊. 多层次生成对抗网络的动画头像生成方法研究[a].《计算机应用》网络首发论文,2021.
[2] 林懿伦,戴星原,李力,王晓,王飞跃. 人工智能研究的新前线:生成式对抗网络[j].自动化学报,2018,44(5):775-792.
[3] 王坤峰,苟超,段艳杰,王懿伦,郑心湖,王飞跃. 生成式对抗网络gan的研究进展与展望[j].自动化学报,2017,43(3):321-332.
5. 计划与进度安排
(1)3月1日 - 3月15日:阅读文献,熟悉生成对抗网络方法和基于gan的文本生成图像方法;
(2)3月15日 - 3月31日:撰写开题报告;
(3)4月1日 - 4月30日:实现gan方法和基于gan进行故事文本生成图像序列方法,并进行结果分析;
课题毕业论文、开题报告、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。