登录 注册 发布

小蜜蜂

深度学习算法由文字生成图像的应用有哪些,前景如何?



推荐

写一下深度学习中由文字生成图像的研究进展,可以帮助你分析相应的应用~

为了解决上面的问题,16年到现在出现了VAE、cGAN、Seq2Seq的思路

下面是一些关键的Paper,讨论了一下她们的突破点和使用的方法

目录:

Mansimov, Elman, Parisotto, Emilio, Ba, Lei Jimmy, and Salakhutdinov, Ruslan. Generating images from captions with attention. In Proceedings of the ICLR. 2016.

会议:ICLR. 2016.

缺点:

Reed, Scott, Akata, Zeynep, Yan, Xinchen, Logeswaran, Lajanugen, Schiele, Bernt, and Lee, Honglak. Generative adversarial text to image synthesis. In Proceedings of ICML 2016

会议:ICML 2016

Reed, Scott E, Akata, Zeynep, Mohan, Santosh, Tenka, Samuel, Schiele, Bernt, and Lee, Honglak. Learning what and where to draw. In Advances in NIPS 2016.

会议:NIPS 2016

Nguyen, Anh, Clune, Jeff, Bengio, Yoshua, Dosovitskiy, Alexey, and Yosinski, Jason. Plug & play generative networks: Conditional iterative generation of images in latent space. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.

会议:CVPR 2017

Zhang, Han, Xu, Tao, Li, Hongsheng, Zhang, Shaoting, Wang, Xiaogang, Huang, Xiaolei, and Metaxas, Dim- itris N. Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks. In The IEEE International Conference on Computer Vision, 2017.

会议:ICCV 2017

一方面从Stage-1 GAN中得到的低分辨率图像通常会缺少一些局部细节,有时候还会造成主要目标物不同程度的形变。另一方面,有些存在于文本中的重要信息,也可能被忽视。 因此,Stage-2 GAN在Stage-1的基础上进行构建。

作为Stage-1条件之一的随机变量 z,可以确保Stage-1的生成结果具有多样性。在这样的假设下,本文在Stage-2阶段并不使用 z 作为条件,而是采用Stage-1的生成结果 s0 作为条件

inception的对比

inception score可以表现出类似于人的对“高质量图片”的感知能力(但是它不能准确反应出生成的图片和图片描述信息之间的相关联系)

上图可以看到对于多个数据集,stackGAN都取得了state-of-art的成绩

Xu, Tao, Zhang, Pengchuan, Huang, Qiuyuan, Zhang, Han, Gan, Zhe, Huang, Xiaolei, and He, Xiaodong. Attngan: Fine-grained text to image generation with attentional generative adversarial networks. CoRR, abs/1711.10485, 2017.

会议:CVPR, 2018.

Attentional Generative Network

DAMSM:检查说明文本中的每个单词是否在实际图像中被适当地表示

inception分数

可以看到在coco数据集上,attnGAN的分数是之前的分数的三倍左右

上图可以看到Attn生成的两个阶段:

会议:Arxiv preprint, 2018

TEXT2SCENE是一个数据驱动的基于Seq2Seq的端到端的模型,包括如下三个部分:

在上述评价指标中,基本上都取得了state-of-art的结果

1151

评论