神经网络图像处理,医学影像图像处理

论文： https://arxiv.org/pdf/1606.04797

代码： https://github.com/faustomilletari/vnet

1 .研究综述作者在文中提出了一种基于全卷积神经网络的3D图像分割方法。另外，本文为了应对前景和背景体素数量的大幅度不平衡，引入了基于Dice 系数的新目标函数。为了解决带注释培训集的有限问题，本文应用随机非线性变换和直方图匹配增强数据。实验结果表明，该方法在测试数据上取得了良好的性能，所需的处理时间只是其他方法所需时间的一小部分。

2 .研究方法2.1 v网络结构v网络结构图像压缩路径

网络左侧分为几个不同的阶段，每个阶段包含1到3个卷积层。通过参考残差网络的思想，将每一级的输入加到卷积层的输出之一，以使得能够学习残差。这种结构比没有学习残差的网络结构更快收敛。

每个阶段使用大小为555的卷积核。当图像沿压缩路径经过不同的阶段时，分辨率逐渐降低。这是因为在第二次操作中使用了大小为222并且步长为2的卷积内核，并且由此获得的特征量图的大小减半。在降低特征地图分辨率的同时，特征通道的数量将增加一倍。PReLu激活函数适用于整个网络。

降低采样会减小输入大小，并增加后续网络层特征图的感受野。

解压缩路径网络的右侧部分提取特征，扩展低分辨率特征地图的空间支持，收集并组合所需的信息，输出两个通道的体积分割(因为是2分类问题)。在最后一个卷积层计算的两个特征图应用softmax函数，以转换前景和背景区域的概率分割。在softmax之后，输出由背景和前景概率图组成。属于前景的概率大于属于背景的概率的体素被认为是解剖结构的一部分。

在每个阶段的末尾使用解卷积操作增加输入大小，然后有1-3个卷积层，卷积核大小为555，卷积核的数量是前一层的一半。和网络左侧一样，在网络右侧的卷积阶段学习残差。

下采样和反卷积跳连接类似于U-Net网络，将网络左侧提取的特征连接到网络右侧。以这种方式收集压缩路径中可能丢失的细粒度，以提高最终预测的质量。另外，还观察到这些连接可以改善模型的收敛时间。

下表显示了各网络层的体感野的大小，表示网络最深的部分可以捕获整个输入。作者认为，这一特征在分割不太清晰的解剖结构时很重要。最深处计算出的特征是从远大于我们要描绘的解剖结构大小的数据中计算出来的，因此可以感知到整个感兴趣的解剖结构。

wereportintable1thereceptivefieldsofeachnetworklayer， showingthefactthattheinnermostportionofourcnnalreadycapturesthecontentofthewholeinputvolume.webelievethatthis贪玩的行人is importartal poorlyvisibleanatomy 3360 thefeaturescomputedinthedeepestlayerperceivethewholeanatomyofinterestatonce， sincetheyarecomputedfromdatahavingaspatialsupportmuchlargerthanthetypicalsizeoftheanatomyweseektodelineate，andthereforeimpospostizer

2.2目标函数网络预测由分辨率与原始输入数据相同的两个体积组成，通过softmax层输出每个体素属于前景和背景的概率。在医学图像分割中，感兴趣的解剖结构往往只占整个扫描区域的非常小的部分。这通常导致学习过程陷入丢失函数的局部最小值，从而生成预测高度偏向背景的网络，并且通常缺少前景区域或仅被部分地检测到。在这项工作中，我们提出了一个新的基于Dice系数的目标函数，我们的目标是使这个目标函数最大化。

使用此表达式，无需在前景和背景体素之间建立正确的平衡，如为不同类别的样本分配损失权重。

2.3数据集： https://pan.Baidu.com/s/1e5yn6lwpfryxasqanjybw提取代码： bvj3

使用MRI前列腺扫描数据训练网络，所有体积

128×128×64 个体素和 1×1×1.5 mm 的空间分辨率。由于数据集较小，因此有必要进行数据增强。

在每次训练迭代中，通过使用由 2×2×2 的控制点网格和 B 样条插值得到的密集变形场将训练图像进行随机变形，作为网络输入。这些增强的数据是在程序运行过程中创建的，以减轻存储需求。

During every training iteration, we fed as input to the network randomly deformed versions of the training images by using a dense deformation field obtained through a 2 × 2 × 2 grid of control-points and B-spline interpolation. These augmentations were performed ”on-the-bzdxmt”, prior to each optimisation iteration, in order to alleviate the otherwise excessive storage requirements.

此外，我们在训练中改变数据的强度值（灰度值）以模拟来自扫描仪的各种数据情况。为此，我们使用直方图匹配将每次迭代中使用的训练体积块的强度分布调整为数据集中随机选择的其他体积块的强度分布。

Additionally, we vary the intensities of the data during training to simulate the variety of data appearance from the scanner. To this end, we use histogram matching to adapt the intensity distributions of the training volumes used in each iteration to the ones of other randomly chosen scans belonging to the dataset.

2.4 训练参数

批次大小：2；

动量：0.99；

学习率：初始学习率为 0.0001，每迭代 25000 次衰减一个数量级。

3. 实验结果

在 50 个体积块上训练网络，在 30 个体积块上测试网络。所有的训练和实验都在标准的工作台上运行（64 GB RAM, 3.30GHz Intel Core i7-5820K CPU, NVidia GTX 1080 with 8 GB VRAM）。模型训练持续了 48 小时，或大约 3 万次迭代。

利用 Dice 系数、网络预测和真值之间的 Hausdorff 距离以及在 “PROMISE 2012” 挑战赛上获得的分数评估了不同方法的性能，结果如下表所示。

4. 思考

1. 为什么在降采样过程中使用步长为 2 的卷积而不是池化？

作者在本文中提到，压缩路径中使用步长为 2 的卷积而不使用池化的理由是一些研究结果表明池化可以被简单地替换为具有增加步长的卷积层，而不会损失准确性。（参考https://arxiv.org/pdf/1412.6806.pdf）

此外，作者认为用卷积操作代替池化操作在训练阶段会占用更小的内存。这是因为使用卷积不需要为了反向传播而存储将输出映射成输入的转换关系。同时，这也是为什么在上采样过程中使用反卷积而不是上池化。

Replacing pooling operations with convolutional ones also results in networks that, depending on the specific implementation, can have a smaller memory footprint during training. This is due to the fact that switches, which map the output of pooling layers back to their inputs, do not need to be stored for back-propagation. In particular, this can be analysed and better understood when applying only de-convolutions instead of un-pooling operations.

2. 怎么理解感受野以及怎么计算感受野的大小？

感受野（Receptive Field）指的是卷积神经网络每一层输出的特征图（Feature Map）上的像素点在输入图片上映射的区域大小。

感受野的计算公式如下：

例如，L-Stage 1 的 RF1 = 1 + ( 5 - 1 ) * 1 = 5；对于 L-Stage 2，5 + ( 2 - 1) * 1 * 1 = 6，6 + ( 5 - 1 ) * 1 * 1 * 2 = 14，RF2 = 14 + ( 5 - 1 ) * 1 * 1 * 2 * 1 = 22，以此类推。

想了解更多关于不同操作后感受野大小的变化，可以参考下列资料：

1. https://distill.pub/2019/computing-receptive-fields/

2. http://www.vlfeat.org/matconvnet/matconvnet-manual.pdf 第五章