neurips是什么(neurips级别)

机器心脏释放

机器智信编辑部

近日，2019 nexurops在加拿大温哥华举办。共有14篇腾讯AI Lab论文入选，在国内企业中排名靠前。这也是腾讯AI Lab第四次参与神经科。会议期间，我们选取了腾讯AI实验室的一篇优秀论文进行解读。

本文由腾讯AI Lab牵头，华南理工大学合作完成，作者利用强化学习学习了一个神经网络结构转换器。它可以优化任何神经网络结构，并将其转换为更紧凑的结构，具有更高的识别精度。以下是对论文的详细解读。

Nat:用于精确和紧凑架构的神经架构转换器论文链接：https://papers . nips . cc/paper/8362-NAT-neural-architecture-transformer用于精确和紧凑架构. pdf。

现有的深度神经网络结构要么是人工设计的，要么是通过神经网络结构搜索(NAS)方法自动搜索的。然而，这些网络结构可能包含许多冗余的计算操作，并且有优化的空间。为了优化网络结构，作者提出了一种神经结构转换的方法。该方法可以用较低的计算复杂度代替网络结构中的冗余操作，从而提高性能，保证不会引入额外的参数和计算。

神经网络中的计算操作可以分为三类，即S、N和o，其中S代表跳过连接，N代表空连接(即两个节点之间没有连接)，o代表除跳过连接和空连接以外的其他操作(如卷积、池运算等)。).显然，这三个计算的顺序是：OSN。为了降低网络结构的计算复杂度，我们希望学习到的NAT用计算量更少的操作来代替原有网络结构中的冗余操作。因此，NAT遵循以下转换规则：o s，o n，s n，由于跳连接往往有助于提高模型的性能，而且它引入的计算量很小，所以NAT也允许n s，简单来说，NAT转换方案如下图所示。

具体来说，对于服从分布p()的任何网络结构，NAT的目标都是找到只有通过上述允许的操作变化才能获得的最优结构。这个优化问题可以写成：

其中包括：

R()=R(，w_ )-R(，w_)，R(，w_)表示验证集上具有最优参数w_的网络结构的性能；C()是所得模型计算成本的约束。然而，很难直接获得最佳结构。因此，NAT首先学习一种策略。

，然后从学习到的策略中采样，即服从。

。为了学习策略，我们解决了以下优化问题：

为了解决这一优化问题，作者在强化学习方法中采用了策略梯度法。因此，有必要构建一个合适的策略函数。由于网络结构可以用(X，A)表示(其中A是邻接矩阵，X是节点特征)，因此作者的策略 (| ，)这里采用了两层图卷积神经网络(GCN)，即：

其中，

n">

此外文章采用了参数共享的方法来避免从头训练每个结构的参数。总体看来，优化思路就是对下面两步进行迭代优化：1、更新神经网络参数 w，（利用了参数共享的思想）:

2、更新θ，（利用最大熵鼓励探索）:

其中第 2 步的流程示意图如下所示：

为了验证 NAT 的有效性，作者将 NAT 应用于人工设计的结构（如：VGG、ResNet、MobileNet）和 NAS 得到的结构（如：ENAS、DARTS、NAONet）。结果分别见表 1 和表 2 所示。

表 1. NAT 在人工设计的网络结构上的优化结果。

表 2. NAT 在 NAS 方法所得的网络结构上的优化结果。从表 1 和表 2，可以观察到，在 ImageNet 数据集上，经过 NAT 优化后的模型都比原来的基准模型，在计算复杂度相近甚至更低的情况下，获得了更高的识别精度。

下面，对 NAT 优化后的模型结构进行可视化。图 1 和图 2 分别给出了 NAT 在人工和 NAS 所设计的网络结构上的优化结果。

图 1. NAT 在人工设计的网络结构上的优化结果。如图 1 所示，对于人工设计的网络结构，NAT 引入额外的跳跃连接来提高识别精度。

图 2. NAT 在 NAS 设计的网络结构上的优化结果。从图 2 可以观察到，对于 NAS 方法得到的网络结构，NAT 通过使用跳跃连接替换冗余操作或者直接删除连接的方法来降低计算量。

此外，作者还对比了不同的策略函数，发现 GCN 优于传统的 LSTM 模型。总之，这项研究对自动化机器学习、网络结构设计，深度学习模型性能优化等诸多实际机器学习问题有重要的指导意义。