首页 > 编程知识 正文

cvpr2019论文(cvpr论文的审稿结果有哪些)

时间:2023-05-05 03:38:48 阅读:103960 作者:1977

由于深度生成模型通常直接生成目标图像,没有对本质形状和外观之间的交互进行建模,导致空间变换性能下降。德国海德堡大学的研究人员提出了条件U-Net,它对可变编码器的输出外观进行了条件化。实验表明,该模型能够完成条件图像的生成和转换。对多个数据集的定性和定量实验表明,该方法优于目前最先进的方法。

研究页面:https://compvis.github.io/vunet/

简介

最近,用于图像合成的生成模型引起了很多关注[7,12,18,24,49,51,32]。生成目标图像需要详细了解其外观和空间布局。因此,我们必须区分基本的目标特征。一方面,目标的形状和几何轮廓与观察者的视角有关(例如,一个人坐着、站着、躺着或背着一个包)。另一方面,还有以颜色和质地为特征的本质外观属性(如棕色长卷发、黑色短平头或毛茸茸的风格)。显然,目标可以在保持其本质外观的同时自然改变其形状(例如,弯曲鞋子不会改变其风格)。然而,由于变换或自遮挡,目标的图像特征在此过程中会发生显著变化。相反,衣服颜色或面料的变化对其形状没有影响,但仍然明显改变了衣服的形象特征。

图1:变化的U-Net模型从左边的查询中学习推理,然后生成第一行中显示的不同姿势下具有相同外观的对象的图像。

由于深度学习的使用,生成模型最近取得了很大的进展,特别是生成对抗网络[1,8,10,27,38],变分自编码器[16]及其组合[2,17]。尽管取得了显著的效果,但这些模型仍然面临着空间变化大的图像分布性能差的问题:尽管可以在完美配准的人脸数据集(如对齐的CelebA数据集[22])上生成高分辨率图像[19,13],但从COCO[20]这样的多样化数据集合成整个人体仍然是一个开放的问题。产生这个问题的主要原因是,尽管这些生成模型可以直接合成目标的图片,但它们无法对生成图像的外观和形状之间的复杂交互进行建模。因此,他们可以很容易地给一张脸添加胡须和眼镜,因为这相当于给那些图像区域重新着色。这将与角色的移动手臂进行比较,这相当于用背景色给旧位置的手臂着色,并将新位置的背景变成手臂。我们缺少的是一个可以改变物体形状的生成模型,而不仅仅是调整颜色。

因此,在生成图像的过程中,我们应该对外观、形状以及它们之间的复杂影响进行建模。对于普遍适用性,我们希望只能从静态图像数据集学习,而不能展示同一目标的一系列不同形状的图片。因此,研究人员提出了条件U-Net[30]框架,用于从形状到目标图像的映射,并对来自编码器的关于外观的变化的潜在表示进行条件化。为了理解耦合的形状和外观,我们允许使用与形状相关的简单且可用的信息,例如自动估计边缘或身体关节位置。那么这种方法就可以实现条件图像的生成和变换:为了合成不同的几何轮廓或改变目标的外观,会保留一张查询图片的外观或形状,没有保留的部分会自由改变,甚至从其他图像中导入。此外,该模型还允许在不改变形状的情况下对外观分布进行采样。

图2:条件U网和变分自编码器的组合。x:查询图像,y帽子:形状估计,z:外观。

图3:仅将边缘图像作为输入时生成的图像(保留左GT图像)。研究人员将这种方法与鞋数据集[43]和挎包数据集[49]上的pix2pix进行了比较。图的右边是来自变分U网的潜在外观分布的样本。

表1:在DeepFashion和Market1501数据集上重建图像的结构相似性(SSIM)和关联分数(IS)。本文的方法比pix2pix[12]和PG 2 [24]具有更好的SSIM性能。在IS性能方面,本文方法优于pix2pix,与PG 2具有可比性。

图4:生成的只有曲棍球击球手作为输入的图像(保留GT图像)。本文的方法在Deepfashion和Market-1501数据集上与pix2pix[12]进行了比较。图像右侧是从潜在外观分布获得的样本。

ttps://p6.toutiaoimg.com/origin/pgc-image/15244739824946781bff3d4?from=pc">

图 5: 草图着色:比较 pix2pix[12] 和本文的模型的生成能力,本文的模型是在实际图像上进行的训练。任务是为鞋子和挎包的手绘草图生成合理的外观 [9]。

图 6: Market-1501 数据集上的外观转换。外观由左侧底部的图像提供。yˆ(中间)是从顶部图像中自动提取,并向底部进行转换。

图 7: DeepFashion 数据集上外观转换的稳定性。每一行都是使用最左侧图像的外观信息合成的,每一列都是对应于第一行的姿态的合成。需要注意的是,推理得到的外观在很多视角上都是不变的。

图 8:图像转换与 PG^2 的比较。左侧:Market 数据集上的结果。右侧:DeepFashion 数据集上的结果。外观是从条件图像中推理得到的,姿态是从目标图像中推理的得到的。要注意,本文的方法不需要关于人物身份的标签。

论文:A Variational U-Net for Conditional Appearance and Shape Generation(用于条件式生成外貌和形状的变分 U-Net)

论文链接:https://arxiv.org/abs/1804.04694

深度生成模型在图像合成领域展现了优异的性能。然而,由于它们是直接生成目标的图像,而没有对其本质形状和外观之间的复杂相互影响进行建模,所以在空间转换时就会存在性能退化。我们针对形状指导图像生成提出了条件 U-Net,将变分自编码器输出的外观条件化。这个方法在图像数据集上进行端到端的训练,不需要同一个物体在不同的姿态或者外观下的采样。实验证明,这个模型能够完成条件图像生成和转换。所以,查询图像的外观或者形状能够被保留,同时能够自由地改变未被保留的另一个。此外,在保留形状的时候,由于外观的随机潜在表征,它可以被采样。在 COCO、 DeepFashion,、shoes、 Market-1501 以及 handbags 数据集上进行的定性和定量实验表明,我们的方法比目前最先进的方法都有所提升。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。