cvpr2019论文(cvpr论文的审稿结果有哪些)

由于深度生成模型通常直接生成目标图像，没有对本质形状和外观之间的交互进行建模，导致空间变换性能下降。德国海德堡大学的研究人员提出了条件U-Net，它对可变编码器的输出外观进行了条件化。实验表明，该模型能够完成条件图像的生成和转换。对多个数据集的定性和定量实验表明，该方法优于目前最先进的方法。

研究页面：https://compvis.github.io/vunet/

简介

最近，用于图像合成的生成模型引起了很多关注[7，12，18，24，49，51，32]。生成目标图像需要详细了解其外观和空间布局。因此，我们必须区分基本的目标特征。一方面，目标的形状和几何轮廓与观察者的视角有关(例如，一个人坐着、站着、躺着或背着一个包)。另一方面，还有以颜色和质地为特征的本质外观属性(如棕色长卷发、黑色短平头或毛茸茸的风格)。显然，目标可以在保持其本质外观的同时自然改变其形状(例如，弯曲鞋子不会改变其风格)。然而，由于变换或自遮挡，目标的图像特征在此过程中会发生显著变化。相反，衣服颜色或面料的变化对其形状没有影响，但仍然明显改变了衣服的形象特征。

图1:变化的U-Net模型从左边的查询中学习推理，然后生成第一行中显示的不同姿势下具有相同外观的对象的图像。

由于深度学习的使用，生成模型最近取得了很大的进展，特别是生成对抗网络[1，8，10，27，38]，变分自编码器[16]及其组合[2，17]。尽管取得了显著的效果，但这些模型仍然面临着空间变化大的图像分布性能差的问题：尽管可以在完美配准的人脸数据集(如对齐的CelebA数据集[22])上生成高分辨率图像[19，13]，但从COCO[20]这样的多样化数据集合成整个人体仍然是一个开放的问题。产生这个问题的主要原因是，尽管这些生成模型可以直接合成目标的图片，但它们无法对生成图像的外观和形状之间的复杂交互进行建模。因此，他们可以很容易地给一张脸添加胡须和眼镜，因为这相当于给那些图像区域重新着色。这将与角色的移动手臂进行比较，这相当于用背景色给旧位置的手臂着色，并将新位置的背景变成手臂。我们缺少的是一个可以改变物体形状的生成模型，而不仅仅是调整颜色。

因此，在生成图像的过程中，我们应该对外观、形状以及它们之间的复杂影响进行建模。对于普遍适用性，我们希望只能从静态图像数据集学习，而不能展示同一目标的一系列不同形状的图片。因此，研究人员提出了条件U-Net[30]框架，用于从形状到目标图像的映射，并对来自编码器的关于外观的变化的潜在表示进行条件化。为了理解耦合的形状和外观，我们允许使用与形状相关的简单且可用的信息，例如自动估计边缘或身体关节位置。那么这种方法就可以实现条件图像的生成和变换：为了合成不同的几何轮廓或改变目标的外观，会保留一张查询图片的外观或形状，没有保留的部分会自由改变，甚至从其他图像中导入。此外，该模型还允许在不改变形状的情况下对外观分布进行采样。

图2:条件U网和变分自编码器的组合。x:查询图像，y帽子：形状估计，z:外观。

图3:仅将边缘图像作为输入时生成的图像(保留左GT图像)。研究人员将这种方法与鞋数据集[43]和挎包数据集[49]上的pix2pix进行了比较。图的右边是来自变分U网的潜在外观分布的样本。

表1:在DeepFashion和Market1501数据集上重建图像的结构相似性(SSIM)和关联分数(IS)。本文的方法比pix2pix[12]和PG 2 [24]具有更好的SSIM性能。在IS性能方面，本文方法优于pix2pix，与PG 2具有可比性。

图4:生成的只有曲棍球击球手作为输入的图像(保留GT图像)。本文的方法在Deepfashion和Market-1501数据集上与pix2pix[12]进行了比较。图像右侧是从潜在外观分布获得的样本。

ttps://p6.toutiaoimg.com/origin/pgc-image/15244739824946781bff3d4?from=pc">

图 5：草图着色：比较 pix2pix[12] 和本文的模型的生成能力，本文的模型是在实际图像上进行的训练。任务是为鞋子和挎包的手绘草图生成合理的外观 [9]。

图 6： Market-1501 数据集上的外观转换。外观由左侧底部的图像提供。yˆ（中间）是从顶部图像中自动提取，并向底部进行转换。

图 7： DeepFashion 数据集上外观转换的稳定性。每一行都是使用最左侧图像的外观信息合成的，每一列都是对应于第一行的姿态的合成。需要注意的是，推理得到的外观在很多视角上都是不变的。

图 8：图像转换与 PG^2 的比较。左侧：Market 数据集上的结果。右侧：DeepFashion 数据集上的结果。外观是从条件图像中推理得到的，姿态是从目标图像中推理的得到的。要注意，本文的方法不需要关于人物身份的标签。

论文：A Variational U-Net for Conditional Appearance and Shape Generation（用于条件式生成外貌和形状的变分 U-Net）

论文链接：https://arxiv.org/abs/1804.04694

深度生成模型在图像合成领域展现了优异的性能。然而，由于它们是直接生成目标的图像，而没有对其本质形状和外观之间的复杂相互影响进行建模，所以在空间转换时就会存在性能退化。我们针对形状指导图像生成提出了条件 U-Net，将变分自编码器输出的外观条件化。这个方法在图像数据集上进行端到端的训练，不需要同一个物体在不同的姿态或者外观下的采样。实验证明，这个模型能够完成条件图像生成和转换。所以，查询图像的外观或者形状能够被保留，同时能够自由地改变未被保留的另一个。此外，在保留形状的时候，由于外观的随机潜在表征，它可以被采样。在 COCO、 DeepFashion,、shoes、 Market-1501 以及 handbags 数据集上进行的定性和定量实验表明，我们的方法比目前最先进的方法都有所提升。