论文详解Sparsity Invariant CNNs

Abstract

本文主要研究稀疏输入下的卷积神经网络，通过稀疏激光雷达扫描数据进行实验。传统的CNN在输入稀疏数据时性能很差，即使提供数据丢失的地方也无法期待效果。为了解决这个问题，本文提出了一种简单有效的稀疏卷积层，并明确考虑了卷积运算中丢失数据的位置。

1.Introduction

卷积神经网络CNN几乎影响了计算机视觉的所有领域。通常，CNN的输入可以是图像或视频，并且由紧密矩阵或者dzdyl表示。通过结合卷积层、非线性层和池化层，CNN可以在第一层提取低层特征，然后在随后的层中依次学习更高层特征。但是，在对网络的输入稀疏或不规则的情况下(例如，只有10%的像素具有有用的信息)，如何定义各滤波器的位置并不十分明确，输入的数量和位置会发生变化。

要解决此问题，一种简单的方法是为所有没有信息的位置分配默认值，但这种方法只能得到次优的结果。这是因为，过滤器必须保持所有可能的活动模式恒定，并且其数量会随着过滤器的大小呈指数增长。

本文提出了引入基于输入像素有效性对卷积核元素进行加权的稀疏卷积层这一简单有效的解决方案。另外，第二个stream将有关像素有效性的信息发送到网络的后续层。

重要的是通过实验证明该网络对不同稀疏度的输入数据是有效的，训练数据和测试数据的稀疏度不同结果不会变差。

本文提出的另一种方法是将激光扫描投影到虚拟或真实的2D图像平面上，产生2.5D特征表示。除了将深度贴图建模为二维回归问题外，还可以集成更多密集信息，例如来自彩色相机的RGB值。但是，标准CNN处理效果不好，因为投影激光扫描通常非常稀疏，无法保证与普通像素网格对齐。相反，本文提出的方法会产生输入稀疏且不规则也可以的结果。

2.Related Work

CNN with Sparse Inputs:处理稀疏输入的简单方法是为无效值指定0，或者在网络中创建其他输入通道以对每个像素的有效性进行编码。

3358 www.Sina.com/http://www.Sina.com /虽然主要着眼于通过利用网络的稀疏性来提高神经网络的效率，但是不能解决稀疏输入的问题。

3358 www.Sina.com/http://www.Sina.com /提高模型对输入变化的鲁棒性是计算机视觉的长期目标。在本论文中，学习表示的问题对于输入的稀疏性应该是不变的。实验证明，即使训练数据与测试数据稀疏性显著不同，模型也是良好的。这具有重要意义，这意味着激光扫描仪可以更换为另一个传感器，而无需重新训练网络。

Sparsity in CNNs:需要直接输入深度或来自高分辨率图像的其他监督。

：

输入x、o表示与输入x对应的2值1 (有观测值)或0 (无观测值)。标准CNN的卷积层输出如下。

提出的方法只明确考虑观测到的像素，将输出标准化：

稀疏卷积运算是为了使滤波器的输出和实际观测到的输入数保持一定，但是实际的输入会根据稀疏和不规则的不同而明显地变化。将信息传递到后续层时，必须跟踪可见性状态并将其提供给网络的下一层。特别是如果未观察到过滤器输入，则将输出位置标记为“unobserved”。然后，可以对该输出进行max pooling以确定后续的观察掩码。如果有一个值，则滤波器的输出为1，否则为0。

卷积层输出和池化层输出均作为下一个稀疏卷积输入，完整网络结构图如下

实验效果图一张：

论文的后一部分还没有详细研究，几天后会追加提交再现论文的代码。请参阅。请参阅。