首页 > 编程知识 正文

gan论文翻译,gan最新论文

时间:2023-05-05 07:03:51 阅读:184065 作者:993

论文标题:Conditional Generative Adversarial Nets
论文链接:https://arxiv.org/pdf/1411.1784.pdf
参考资料:http://blog.csdn.net/solomon1558/article/details/52555083

一、CGAN的思想

在原始GAN学习笔记中,我们提到过,与其他生成式模型相比,GAN这种竞争的方式不再要求一个假设的数据分布,即不需要formulate p(x),而是使用一种分布直接进行采样sampling,从而真正达到理论上可以完全逼近真实数据,这也是GAN最大的优势。然而,这种不需要预先建模的方法缺点是太过自由了,对于较大的图片,较多的 pixel的情形,基于简单 GAN 的方式就不太可控了。为了解决GAN太过自由这个问题,一个很自然的想法是给GAN加一些约束,于是便有了Conditional Generative Adversarial Nets(CGAN)【Mirza M, Osindero S. Conditional】。

这项工作提出了一种带条件约束的GAN,在生成模型(D)和判别模型(G)的建模中均引入条件变量y(conditional variable y),使用额外信息y对模型增加条件,可以指导数据生成过程。这些条件变量y可以基于多种信息,例如类别标签,用于图像修复的部分数据[2],来自不同模态(modality)的数据。如果条件变量y是类别标签,可以看做CGAN 是把纯无监督的 GAN 变成有监督的模型的一种改进。这个简单直接的改进被证明非常有效,并广泛用于后续的相关工作中[3,4]。Mehdi Mirza et al. 的工作是在MNIST数据集上以类别标签为条件变量,生成指定类别的图像。作者还探索了CGAN在用于图像自动标注的多模态学习上的应用,在MIR Flickr25000数据集上,以图像特征为条件变量,生成该图像的tag的词向量。

二、Conditional Adversarial Nets 2.1 Generative Adversarial Nets

Generative Adversarial Nets是由Goodfellow[5]提出的一种训练生成式模型的新方法,包含了两个“对抗”的模型:生成模型(G)用于捕捉数据分布,判别模型(D)用于估计一个样本来自与真实数据而非生成样本的概率。为了学习在真实数据集x上的生成分布 Pg ,生成模型 G 构建一个从先验分布 Pz(z) 到数据空间的映射函数 G(z;θg) 。 判别模型 D 的输入是真实图像或者生成图像, D(x;θd) 输出一个标量,表示输入样本来自训练样本(而非生成样本)的概率。

模型 G 和 D 同时训练:固定判别模型 D,调整 G 的参数使得 log(1−D(G(z)) 的期望最小化;固定生成模型 G,调整 D 的参数使得 logD(X)+log(1−D(G(z))) 的期望最大化。这个优化过程可以归结为一个“二元极小极大博弈(minimax two-player game)”问题:

2.2 Conditional Adversarial Nets

条件生成式对抗网络(CGAN)是对原始GAN的一个扩展,生成器和判别器都增加额外信息 y 为条件, y 可以使任意信息,例如类别信息,或者其他模态的数据。如 Figure 1 所示,通过将额外信息 y 输送给判别模型和生成模型,作为输入层的一部分,从而实现条件GAN。在生成模型中,先验输入噪声 p(z) 和条件信息 y <script type="math/tex" id="MathJax-Element-11">y</script> 联合组成了联合隐层表征。对抗训练框架在隐层表征的组成方式方面相当地灵活。类似地,条件 GAN 的目标函数是带有条件概率的二人极小极大值博弈(two-player minimax game ):

CGAN的网络结构:

三、实验 3.1 Mnist数据集

在MNIST上以类别标签为条件(one-hot编码)训练条件GAN,可以根据标签条件信息,生成对应的数字。生成模型的输入是100维服从均匀分布的噪声向量,条件变量y是类别标签的one hot编码。噪声z和标签y分别映射到隐层(200和1000个单元),在映射到第二层前,联合所有单元。最终有一个sigmoid生成模型的输出(784维),即28*28的单通道图像。

判别模型的输入是784维的图像数据和条件变量y(类别标签的one hot编码),输出是该样本来自训练集的概率。

3.2 多模态学习用于图像自动标注

自动标注图像:automated tagging of images,使用多标签预测。使用条件GAN生成tag-vector在图像特征条件上的分布。数据集: MIR Flickr 25,000 dataset ,语言模型:训练一个skip-gram模型,带有一个200维的词向量。
【生成模型输入/输出】
噪声数据 100维=>500维度
图像特征4096维=>2000维
这些单元全都联合地映射到200维的线性层,
输出生成的词向量 (200维的词向量)
【判别模型的输入/输出】
输入:
500维词向量;
1200维的图像特征
???生成式和判别式的条件输入y,维度不一样???一个是4096维的图像特征,另一个是?维的?向量 _???
如图2所示,第一列是原始像,第二列是用户标注的tags ,第三列是生成模型G生成的tags。

四、Future works 提出更复杂的方法,探索CGAN的细节和详细地分析它们的性能和特性。 当前生成的每个tag是相互独立的,没有体现更丰富的信息。 另一个遗留下的方向是构建一个联合训练的调度方法去学校language model Reference

[1] Mirza M, Osindero S. Conditional Generative Adversarial Nets[J]. Computer Science, 2014:2672-2680.

[2] Goodfellow, I., Mirza, M., Courville, A., and Bengio, Y. (2013a). Multi-prediction deep boltzmann machines. In Advances in Neural Information Processing Systems, pages 548–556.

[3] Denton E L, Chintala S, Fergus R. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[C]//Advances in neural information processing systems. 2015: 1486-1494.

[4] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[J]. arXiv preprint arXiv:1511.06434, 2015.

[5] Goodfellow Ian, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. 2014: 2672-2680.

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。