算法笔记答案,算法笔记里有多少道题

一.工作流程：

2 .优化目标

3 .关于生成器和判别器的网络结构设计

3358www.Sina.com/cgan可以通过添加条件信息来指导图像生成，因此图像翻译可以以输入图像为条件，学习从输入图像到输出图像的映射，得到指定的输出图像。pix2pix是基于cGAN实现图像翻译和而其他基于GAN来做图像翻译的表示pix2pix和其它gww.Sina.com /，因为GAN算法的生成器基于一个随机噪声来生成图像

另一方面，图Figure2示出了工作流： pix2pix算法的图像。在图中，介绍基于图像的边缘生成图像的例子中的pix2pix的工作流程。基本上都是通过其他约束条件来指导图像生成，而不是利用cGAN

在图中未描绘x作为生成器g的输入(随机噪声z，去除z对生成效果没有太大影响，但是假设x和z相加作为g的输入，则得到更多样的输出) )而生成图像g ) x )，接着将g ) x )和x )合并该预测概率值表示输入是否为实际图像对，以及实际图像y和x也基于信道维度进行合并，作为判别器d的输入，得到概率预测值。因此，判别器d的训练目标是，在输入不是实际图像的对的情况(x和g )x ) )、输入是实际图像的对的情况(x和y )、较大的概率值(例如最大为1 )进行输出。生成器g的训练目标是使得鉴别器d输出的概率值尽可能大，即使生成的g(x )和x是鉴别器d的输入，也相当于成功地欺骗鉴别器d。

2 .优化目标

pix2pix的优化目标有两个部分。一部分是cGAN的优化目标，另一部分是3358www.Sina.com/，首先输入图像用y表示，输入图像的边缘图像用x表示，pix2pix在训练时需要成对的图像（x和y），这部分借鉴了基于其他GAN进行图像翻译的思想，但3358 www.Sina.com

备注： L1与L2距离：曼哈顿距离与lhdxb距离(L1距离与L2距离) _gxdhmgsjx博客-CSDN博客

L1距离

z表示随机噪声，并且鉴别器d的优化目标是方程1的值越大越好，而生成器g的优化目标是方程1的log(1-d(x，g ) x，z ) )越小越好。也就是说，是公式4的min和max的意思。这里需要注意的是，正如GAN论文中提到的，公式1训练为用来约束生成图像和真实图像之间的差异，这里用L1而不是L2，目的是减少生成图像的模糊，1.cGAN的优化目标如公式1所示：，pix2pix算法

饱和现象

用于约束生成图像g(x，z )与实际图像y之间的差异。

3 .关于生成器和判别器的网络结构设计

发生器采用也就是判别器D很强大，但是生成器G很弱小，导致G基本上训练不起来，两者的对例如如Figure3所示。

U-Net是德国Freiburg大学模式识别与图像处理组提出的全卷积结构。与低维下采样并上采样到原始分辨率的编解码器(Encoder-Decoder )结构的常见网络相比，因此可以将生成器G的优化目标从最小化log(1-D(x,G(x,z))修改为最大化log(D(x,G(x,z)))，http://www.Sina.com u网可以提高细节

效果非常明显。图像到图像转换问题的一个定义特征是它们将高分辨率输入网格映射到高分辨率输出网格。另外，对于本次实验考虑的问题，输入和输出在表面外观上是不同的，但都是相同的底层结构的渲染。因此，输入中的结构大致与输出中的结构对齐。围绕这些考虑因素来设计生成器架构。在U-Net网络中，输入经过一系列层，逐步向下采样，直到瓶颈层，在此过程反转。这样的网络要求所有的信息流通过所有的层，包括瓶颈。对于许多图像翻译问题，输入和输出之间有大量的低级信息共享，因此直接通过网络传输这些信息是可取的。

判别器 -- 马尔科夫判别器(PatchGAN)

判别器采用PatchGAN，PatchGAN对输入图像的每个区域（patch）都输出一个预测概率值，相当于从判断输入是真还是假演变成判断输入的N*N大小区域是真还是假。举个例子，假设判别器的输入是1 ∗ 6 ∗ 256 ∗ 256 ，N设置为8，判别器的输出大小是1 ∗ 1 ∗ 32 ∗ 32 ，其中32 ∗ 32 大小的输出中的每个值都表示输入中对应8 ∗ 8 区域是真实的概率。

利用马尔科夫性的判别器(PatchGAN)，pix2pix采用的策略是，用重建来解决低频成分，用GAN来解决高频成分。

一方面，使用传统的L1 loss来让生成的图片跟训练的图片尽量相似，用GAN来构建高频部分的细节。另一方面，使用PatchGAN来判别是否是生成的图片。

PatchGAN的思想是，既然GAN只用于构建高频信息，那么就不需要将整张图片输入到判别器中，让判别器对图像的每个大小为N x N的patch做真假判别就可以了。因为不同的patch之间可以认为是相互独立的。pix2pix对一张图片切割成不同的N x N大小的patch，判别器对每一个patch做真假判别，将一张图片所有patch的结果取平均作为最终的判别器输出。具体实现的时候，本次实验使用的是一个NxN输入的全卷积小网络，最后一层每个像素过sigmoid输出为真的概率，然后用BCEloss计算得到最终loss。这样做的好处是因为输入的维度大大降低，所以参数量少，运算速度也比直接输入一张快，并且可以计算任意大小的图。

原文链接：https://blog.csdn.net/weixin_42232024/article/details/110205087

原文：pix2pix算法笔记_AI之路-CSDN博客_pix2pix