Advances in Difference Equations(BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记)

阅读began 3360 boundaryequilibriumgenerativeadversarialnetworks笔记摘要我们提出了一种训练时促进生成器和鉴别器均衡(equilibrium )的新方法和一套迷失。该loss由Wasserstein distance派生，Wasserstein distance训练了基于自编码器的生成对抗网络(GAN )的使用。此外，该新方法还提供了新的近似收敛手段，实现了快速稳定的训练和高视觉质量。另外，还导出了能够控制图像多样性与视觉质量权衡的方法。论文集中于图像生成任务，以更高的分辨率确立了视觉质量的新里程碑。所有这些都是使用相对简单的模型体系结构和标准的培训流程实现的。

1 .简介谷歌的Berthelot、Tom Schumm、Metz本周发表论文的BeGAN(BoundaryEquilibriumgan )提出了“边界均衡gan”的概念，EBGAN和WGAN分别为不仅在标准训练步骤中取得了惊人的成果，论文还提出了可以测量收敛的超参数，实现了快速稳定的训练和高视觉质量。

作者在论文中写道，他们的主要贡献如下。

简单、强大的GAN体系结构，使用标准的培训流程实现快速、稳定的收敛。

用于平衡判别器和生成器的平衡概念。鉴别器在训练初期就有压倒性的优势，往往胜过生成器。通过参数k实现。

这是一种控制图像多样性与视觉质量权衡的新方法，由超参数来实现。

近似测量收敛的方法实现了by Convergence measure Mglobal，但已知目前只有一种方法是Wasserstein GAN。

1.2EBGAN “EBGAN”是由杨乐村项目团队提交给ICLR2017的工作，从能源模型的角度对GAN进行了扩展。 EBGAN将判别器视为能量函数。在实际数据区域附近的区域，能量函数的能量值较小，而在其他区域(即非实际数据区域)，能量函数的能量值较高。因此，在EBGAN中对GAN给出了能量模型的解释。也就是说，生成器的目的是生成能量最小的样本，而判别器的目的是给这些生成样本提供较高的能量。

“从能量模型的角度来看鉴别器和GAN的好处是，可以使用更宽的结构和损耗函数来训练GAN结构。例如，文中如下图所示，以自编码器(AE )的结构为判别器实现了整体的GAN框架。

在训练中，EBGAN表现出比GAN更稳定的性能，也生成了更清晰的图像。

2.Proposed method (提出的方法)我们的方法使用从Wasserstein距离派生的loss匹配自编码loss分布。它使用经典的GAN模型目标添加平衡项，平衡分类器和生成器。我们方法的培训过程和网络架构比GAN更简单。

2.1Wasserstein距离的下限是自动编码器，希望研究重构误差分布，而不是重构样本的分布。首先介绍自编码器的loss，然后计算实际样本与生成样本的自编码loss分布之间的Wasserstein距离的边界值。

loss采用像素级的L1或L2 norm，即

L(V )=(VD ) v ) (p，p ) 1，2

其次，真正样品的loss分布和生成样品的loss分布分别用1、2表示，(1、2 )是其联合分布，

m1，2表示各自的平均值，Wasserstein距离用于确定这两个loss分布的距离，表示为：

w(1，2 )=INF(1，mu2 ) e ) x1，x2)(||x1x2||) ) ) ) ) 652 )

基于Jensen不等式：

infe [|| x1x2||] INF|| e [ x1x2]|||||||m1 m2|| 2.2 gan目标

根据GAN的抵抗性原则，d以扩大两个分布的距离，即w(1，2 )最大化为目标，g以接近两个分布的距离为目标。

因为m1、m2R，所以最大化w(1、2 )实际上有两组解。

w(1，2 )=m1m2，m1，m20w )1，2 )=m2m1，m10，m2

根据d和g的目标，很容易确定第二组的解更合理。一方面可以扩大两个分布的距离，另一方面可以减少实际样本的重构误差(m-1表示实际样本的重构误差，越小越好)。 g可以通过最小化m2来实现，以减小两个分布的差异。也就是说，(d实际上对目标函数取了倒数，所以以下两个目标函数需要最小化) )。

最小LD=l (x； (L ) g ) ZD； G； D ) minGLG=LD 2.3提出均衡概念

当满足生成器loss和分类器loss时

式时认为两者均衡，此时鉴别器分辨出真假样本的概率是相同的。

E[L(x)]=E[L(G(z))]

然而，当D和G的能力不相当时，一方很容易就打败了另一方，这将导致训练不稳定。为此，作者引入了一个超参数 γ∈[0,1] 来平衡两者的loss：

γ=Ez(L(G(z)))Ex(L(x))
在我们的模型里，鉴别器有两个竞争的目标：对真实图像自编码和从生成的图像中区别出真正的图像。

当 γ 较小时，D致力于最小化真实样本的重构误差，相对来说，而对生成样本的关注较少（此处有疑问），这将导致生成样本的多样性降低。作者称这个超参数为diversity ratio，它控制生成样本的多样性。

所以现在的目标有两个，尽可能地最小化GAN object以及尽可能地满足保证公式(8)成立。综合这两个目标，可以设计一个判断收敛情况的指标，使用均衡概念推导出一个全局的收敛度量：我们可以构建收敛过程通过找到最接近的重建值 L（x）加上比例控制算法的瞬时过程误差的绝对值 |γL(x)−L(G(z))| 。

M=L(x)+|γL(x)−L(G(z))|
为了尽可能地满足公式mathbb{E}[mathcal{L}(x)]=mathbb{E}[mathcal{L}(G(z))] ，作者借鉴控制论中的“比例控制理论”(Proportional Control Theory)，引入比例增益 λk 和比例控制器的输出 kt ，完整的BEGAN的目标函数如下：
LDLGkt+1=L(x)−ktL(G(z)),for θD=L(G(z)),for θG=kt+λk(γL(x)−L(G(z))),for each training step t

我们用比例控制理论来实现 γE[L(x)]=E[L(G(z))] 。
这个等式由 kt∈[0,1] 来控制 L(G(z)) 在梯度下降时的比例实现。 k0=0 , λk 是 k 的比例增益，也即是k 的学习率， λk=0.001
实质上，这可以被认为是一种的闭环反馈控制，在每一步骤调整 kt 以维持方程式 γE[L(x)]=E[L(G(z))] ,优化器选择Adam。

在早期训练阶段，因为生成的数据接近0，并且实际数据分布尚未被准确地学习，G容易为自编码器生成易于重建的数据。
这样就有 L(x)>L(G(z)) (???)，并通过均衡约束在整个训练过程成立。

3.实验

代码为tensorpack/examples/GAN/BEGAN.py
数据集为celebA/Align&Cropped images
代码还没有看，先跑了一下结果。

下节分析论文实验部分和代码。