卷积神经网络发展综述,深度神经网络技术

获得上面的人工智能算法与Python大数据更多的干货

在右上角的http://www.Sina.com/http://www.Sina.com /上设置星形标记，第一时间获取资源

只进行学术共享，如有侵权联系删除

(在)专业知识

自我监控学习是关注的热点问题之一，从TPAMI最新综述论文《深度神经网络自监督视觉特征学习》对自我监控视觉特征学习进行了全面的调查综述，引起了人们的关注！

为了在计算机视觉APP应用中学习更好的图像和视频特征，通常需要大规模的标签数据来训练深度神经网络。为了避免收集和标记大量数据所需的巨大成本，一种无监控学习方法——自监控学习方法允许人们在不使用标记的情况下从大规模无标签数据中学习图像和视频的一般特征。首先介绍了这一领域的动机和专业术语。在此基础上，总结了常用的用于自我监控学习的深度神经网络架构。然后回顾了自我监控学习方法的模型和评价指标，介绍了常用的图像和视频数据集以及现有的自我监控视觉特征学习方法。最后总结讨论了基于标准数据集的性能比较方法在图像和视频特征学习中的应用。

3359 IEEE xplore.IEEE.org/document/9086055

https://www.zuan zhi.ai/paper/0e 9852 b b57 c7f e 00 cc 59723 fc0ee 899 f

摘要：

由于深度神经网络具有学习不同层次一般视觉特征的强大能力，很多计算机，如目标检测[1]、[2]、[3]、语义分割[4]、[5]、[6]、图像描述[7] 像ImageNet这样从大图像数据集训练出来的模型被广泛用作预训练模型和用于其他任务的微调模型。主要的两个原因是，(2)在大数据集上训练的网络学习分层特征，有助于减少训练其他任务时的拟合问题。特别是在其他任务的数据集小或培训标签少的情况下。

卷积神经网络(ConvNets )的性能在很大程度上取决于其能力和训练数据量。为了增加网络模型的容量，人们开发和收集不同类型的网络体系结构的数据集也越来越大。包括AlexNet [9]、VGG [10]、GoogLeNet [11]、ResNet [12]、DenseNet[13]、ImageNet [14]、通过各种网络复杂体系结构和大型数据集，如大型数据集(如OpenImage[15] )，ConvNets的性能受到许多计算机视觉任务[1]、[4]、[7]和[ 110 ]

本文对基于深度学习的自监督一般性视觉特征学习方法做了综述。ImageNet[14]是预培训verydeep2dconvolutionalneuralnetworks (2dconvnets )中使用最广泛的数据集Kinetics数据集[19]主要用于训练ConvNets进行视频人体动作识别，该数据集由50万个视频组成，共600个类别，每个视频的时间约为10秒。许多亚马逊Turk员工花了很多时间收集和注释这么大的数据集。

引言流行的解决方案之一是提出各种前置任务并使其解决网络，通过学习前置任务的目标函数来训练网络，在此过程中学习特征。已经提出了各种自我监视学习任务，例如灰度图像着色[20]、图像填充[21]、图像谜题[22]等。隼任务有两个共同的特性：(1)图像和视频的视觉特征，需要被ConvNets捕获来解决前置任务； )监测信号是利用数据本身的结构(自我监测)产生的。

自我监控学习的一般流程如图1所示。在自我监控培训阶段，进行ConvNets的预设计
定义的前置任务，并根据数据的某些属性自动生成前置任务的伪标签。然后训练卷积神经网络学习任务的目标函数。当使用前置任务进行训练时，ConvNet的较浅的块集中于低级的一般特征，如角、边和纹理，而较深的块集中于高级任务特定的特征，如对象、场景和对象部分[23]。因此，通过藉由任务训练的ConvNets可以学习内核来捕获低级特征和高级特征，这对其他下游任务是有帮助的。在自监督训练结束后，学习到的视觉特征可以作为预训练的模型进一步转移到下游任务中(特别是在数据相对较少的情况下)，以提高性能和克服过拟合。通常，在有监督的下游任务训练阶段，仅从前几层传递视觉特征。

自监督学习的前置任务可以分为四类：

（1）Generation-based Methods（基于生成的）

Image Generation（图像生成）：图像着色、图像超分辨率（指由一幅低分辨率图像或图像序列恢复出高分辨率图像）、图像修复、用GANs生成图像

Video Generation（视频生成）：利用GANs进行视频的生成及预测

（2）Context-based pretext tasks（基于上下文的）

Context Similarity（上下文相似度）：根据图像补丁之间的上下文相似性设计前置任务，包括基于图像聚类的方法（image clustering-based methods）和基于图像约束的方法（ graph constraint-based methods）。

Spatial Context Structure（空间上下文结构）：基于图像补丁之间的空间关系，包括图像拼图（image jigsaw puzzle）、上下文预测（context prediction）、几何变换识别（geometric transformation recognition）。

Temporal Context Structure（时间上下文结构）：来自视频的时间顺序用作监视信号。对ConvNet进行训练，以验证输入帧序列是否以正确的顺寻或识别帧序列的顺序。

（3）Free semantic label-based（基于自动生成语义标签的方法）

使用自动生成的语义标签来训练网络，标签是由传统的硬编码算法或游戏引擎生成的。包括运动对象分割（moving object segmentation）、轮廓检测（contour detection）、相对深度预测（relative depth prediction）。

（4）Cross modal-based（基于跨模态的方法）

这种前置任务训练ConvNet验证两个不同的输入数据通道是否彼此对应。包括视觉-音频对应验证（Visual-Audio Correspondence Verification）、RGB流对应验证（RGB-Flow Correspondence Verification）、自我感应（egomotion）。

---------♥---------

声明：本内容来源网络，版权属于原作者

图片来源网络，不代表本公众号立场。如有侵权，联系删除

AI博士私人微信，还有少量空位

如何画出漂亮的深度学习模型图？

如何画出漂亮的神经网络图？

一文读懂深度学习中的各种卷积

点个在看支持一下吧