首页 > 编程知识 正文

卷积神经网络属于哪种模型(卷积模型)

时间:2023-05-04 06:03:33 阅读:91714 作者:1793

arXiv,作者: Aran Nayebi等,机器的心被编译,参加:李诗萌,路。

目前机器视觉行为的执行只涉及前馈过程,而人类及灵长类视觉行为的执行涉及前馈、反馈、时间预测等多个过程的综合。 也就是说,当前的机器视觉只能根据低级别的图像属性按级别进行计算并传播到高级别来获得模型输出,但在现实的APP中,即使是分类和目标检测这样的任务,也需要考虑功能和上下文等复杂的高级概念。 为此,来自斯坦福、MIT、谷歌大脑等机构的研究者参考灵长类的脑神经结构,提出了一种内部集成循环和远程反馈结构的新型卷积循环模型ConvRNN。 实验表明,该框架以更少的参数达到更深层前馈ResNet的性能,更好地拟合灵长类的视觉过程,在执行不同复杂的视觉行为时大脑的循环连接起着重要的作用。

大脑的感觉系统必须从复杂的噪声感觉数据中检测出有意义的模式[James,1890]。 视觉环境可以揭示对象的积极或消极性质,如食物种类、危险标志、记忆犹新的社会伙伴等。 这些对象的位置、姿势、对比度、背景和前景随时间而不同。 因此,从低级图像属性中进行目标检测并不容易[Pinto等人,2008]。 灵长类的视觉系统将相关的高级属性编码以指导行动[Majaj等人,2015]。 该过程可以建模为将图从原始像素值转换为内部特征[DiCarlo等人,2012]。 优秀的编码算法可以为简单的解码过程提供与诸如线性分类器[Hung等,2005,Majaj等,2015]的任务有关的特征。

最新研究表明,基于任务优化的深度卷积神经网络(CNN )是灵长类大脑视觉代码的精确量化模型[Yamins等人,2014,Khaligh-Razavi和Kriegeskorte,2014, 目前用于识别ImageNet目标的CNN与其他模型类别相比,可以更好地解释视觉系统中神经元的平均时间响应(temporally-averaged response )。 来自下层、中层、上层的卷积层的模型单元分别为早期(V1区([Khaligh-Razavi和Kriegeskorte,2014,Cadena等,2017 ) )、中期) V4区) [Yamins等] 2014 ) ) ) ) )、和进一步发生的提供视觉皮质层的[Khaligh-Razavi和Kriegeskorte,2014,Yamins等人,2014] )的神经诱发反应的已知最佳线性预测值。

但是,灵长类的视觉系统中还有无法用前馈CNN建模的其他解剖结构。 这些结构包括各皮质区域内紧密的局部循环连接和不同区域之间的远程连接,如从视觉水平高的部分到视觉水平低的部分的反馈[Gilbert和Wu,2013]。 灵长类大脑视觉系统中的“循环”(recurrence )功能还没有得到充分的研究。 在一些预测中,被认为是循环“填充”缺失的数据[Spoerer等人、2017、Michaelis等人、2018、Rajaei等人、2018、Linsley等人、2018]。 例如,被其他物体遮挡物体的部分; 一些猜想认为,循环通过自上而下的注意特性细化来“锐化”特征,从而解码特定的刺激元素和特定任务的性能[Gilber和Wu,2013,生动的发带,2015,McIntosh, 被认为循环允许大脑“预测”未来的刺激信号(电影的帧等) [Rao和Ballard,1999,Lotter等,2017,Issa等,2018]另外,循环还“扩展”了前馈计算这意味着展开的循环网络等价于通过多次重复转换来存储神经元(和可学习的参数)的更深的前馈网络。 [Khaligh-Razavi和Keirgeskorte,2014,Liao和Poggio,2016,Zamir等,2017,

由于现有的神经数据不能排除这些可能性,计算模型可能有助于评价这些假设。 基于前馈CNN和神经信号的时间平均值的目标驱动建模方法[Yamins和DiCarlo,2016,Mante等人,2013,Shi等人,2018]被卷积后的循环神经网络ConvRNN和神经动态neural dye 具体地说,假设向CNN添加循环和反馈有助于这些模型执行行为相关任务(ethologically-relevant task ),那么这样的扩展网络会影响视觉路径中的神经响应的细节吗?

虽然增加了循环结构的扩展CNN被用于解决比较简单的遮挡变形和未来预测的任务[Spoerer等人、2017、Lotter等人、2017],但是这些模型是前馈CNN执行的困难任务(iii ) 众所周知,在本论文的制作过程中,用ImageNet进行目标识别只能生成与视觉皮质神经元的激活模式相似的东西

CNN 激活模式的任务 [Khaligh-Razavi 和 Kriegeskorte,2014,Yamins 等人,2014,Cadena 等人,2017]。事实上,由于多样性和复杂性,ImageNet 包含许多可以根据上述假设(例如严重遮挡、出现多个前景目标等)利用循环过程的图像。此外,近期一些针对 ImageNet 的最有效方法(如 ResNet 模型 [He 等人,2016])是在多个层上重复相同的架构模式,这说明它们可能与较浅的循环网络的展开近似 [Liao 和 Poggio,2016]。因此我们试着探索循环是否可以改善在 ImageNet 数据集上的分类性能。尽管其他研究是将 CNN 的输出作为 RNN 的输入来解决目标分割等视觉任务 [McIntosh 等人,2017],但我们选择将循环架构整合进 CNN 中,因为这样的架构在神经科学文献中很普遍。

我们发现标准的循环单元(例如标准 RNN 和 LSTM [Elman,1990,Hochreiter 和 Schmidhuber,1997])不会使 ImageNet 性能提升至超越参数匹配的前馈基线的水平。但我们设计了新的局部单元架构,该架构包含用于将循环架构集成到 CNN 中的结构属性。为了在广泛的模型架构空间中更好地识别模型架构,我们在数以千计的模型上进行了自动搜索,这些模型的局部循环单元和远程反馈连接有所不同。引人注目的是我们在这个过程中发现了在传统 RNN 中从未发现过的新的循环模式:例如,最成功的模型会用深度可分离的卷积专门处理局部循环连接,从而对网络中类似 ResNet 的前馈骨干网络进行多重门控。此外,小部分远程反馈连接可以提升任务性能,尽管大多数只具备中性或负面影响。总的来讲,这种搜索产生的循环模型在仅使用 75% 的参数时,表现与更深层的前馈架构(ResNet-34)差不多。最后,在比较循环模型特征和灵长类动物视觉系统中的神经响应后,我们发现基于 ImageNet 优化的 ConvRNN 提供了以 10ms 分辨率跨越中高层视觉皮层区域的精准量化的神经动态模型。这些结果提供了一个视觉系统中的局部和远程循环如何调整以适应在灵长类动物的视觉系统中执行目标识别的模型。

图 1:模型架构示意图。卷积循环网络(ConvRNN)是将局部循环单元和远程反馈连接组合在一起添加到 CNN 的骨干网络上。在我们的实现中,沿着黑色或红色箭头进行的传播需要一个时间步(10 ms)来模拟皮质层间的传导延迟。

图 2:局部循环单元架构的比较。(a)ConvRNN 单元间的架构差异。标准 ResNet 和标准 RNN 单元都有旁路(见论文)。LSTM 单元有门控,在图中用 T 字连接符表示,但是没有旁路。reciprocal 门控单元两个都有。(b)多种 ConvRNN 和前馈模型随着参数数量变化产生的性能变化。彩色的点将相应的 RNN 单元合并到 6 层前馈架构(「FF」)中。「T」表示展开的步数。经过超参数优化的 LSTM ConvRNN 和 reciprocal 门控单元 ConvRNN 通过黑线连接到未优化版本。

图 3:ConvRNN 的超参数化和搜索结果。(a)局部循环单元的超参数化。箭头表示输入单元、隐藏状态和输出之间的连接。问号表示可选连接,可能是常规或深度可分离的卷积,可选择卷积核大小。层(l-1 out、l in 和 l out)之间的反馈连接始终存在。带有问号的方框表示可选择 sigmoid 或 tanh 非线性激活函数、加法,或恒等连接(identity connection,像 ResNet 中一样)这样的多重门控。最终,从 l+k out 层开始的远程反馈连接可能会进入局部单元输入、隐藏状态或输出。(b)ConvRNN 搜索结果。每个蓝色的点都表示一个模型,采样自训练了 5 个 epoch 的超参数空间。橙色的线是最后 50 个模型的平均性能。红色的线表示搜索过程中该点表现最好的模型。

图 4:最优的局部循环单元和全局反馈连接。(a)搜索过程中表现最好的模型的 RNN 单元架构。红色的线表示每个最好的独特模型(3b 中的红线)所选择的超参数(连接和与滤波器大小)。K*K 表示卷积,dsK*K 表示卷积核大小为 K*K 的深度可分离卷积。(b)搜索中的远程反馈连接。(顶部)每条轨迹表示 100 个样本窗口中有特定反馈连接的模型的比例。(底部)每一个条表示具备给定反馈的模型与不具备该反馈的模型之间的性能中值差异。颜色与上面图中相同的反馈颜色一致。(c)在 128px 大小的 ImageNet 上完整训练的模型的性能。我们比较了 ResNet-18、18 层前馈基础模型(basenet)、搜索中有或没有全局反馈连接的中位模型,以及它的最小展开控制(T=12)的性能。「Random Model」是从模型搜索的初始随机阶段随机选取的。每个长条上方显示的是参数数量(单位:百万)。ResNet 模型的训练方法与 [He 等人,2016] 相同,但与 ConvRNN 相比,ResNet 是用 128px 大小的图像训练的。

图 5:用 ConvRNN 对灵长类动物腹侧流神经动态进行建模。(a)用于拟合神经动态的 ConvRNN 模型在 4 到 10 层具备局部循环单元和远程反馈(红色箭头)。(b)与大脑的腹侧层次一致,V4 的大多数单元都与第 6 层的特征最佳匹配;pIT 匹配第 7 层;cIT/aIT 匹配第 8/9 层。(c)与神经动态拟合的模型特征与这些响应的噪声上限很接近。y 轴表示在 held-out 图像上预测值和真实的响应值之间相关单元的中值。

论文:Task-Driven Convolutional Recurrent Models of the Visual System

论文地址:https://arxiv.org/pdf/1807.00053.pdf

摘要:前馈卷积神经网络(CNN)是针对像 ImageNet 这样的目标分类任务的当前最佳模型。此外,它们是灵长类动物大脑视觉系统中神经元平均时间响应的精准量化模型。但是生物的视觉系统有两个独一无二的、普通 CNN 没有的结构特征:皮质区域内的局部循环和从下游区域到上游区域的远程反馈。我们在此探索了循环在改善分类表现中威武的保温杯。我们发现深度 CNN 中标准形式的循环结构(标准 RNN 和 LSTM)在 ImageNet 任务中表现得不是很好。相比之下,包含两个架构特征(旁路和门控)的自定义单元能大大提高任务的准确率。我们将这些设计原理扩展到自动架构搜索中,即在数千个模型架构中识别有利于目标识别的新型局部循环单元和远程反馈连接。此外,基于任务优化的 ConvRNN 比前馈网络更好地解释了灵长类动物视觉系统中神经激活的动态,这说明在执行不同复杂视觉行为时大脑的循环连接扮演着重要角色。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。