neurIPS2019高分论文(2018形势政策论文3000)

据AI科技评论称，12月上旬，NeurIPS 2018在加拿大蒙特利尔会议展览中心(Palais des Congrs de Montral )成功举行，AI科技评论对此进行了报道。今年的会议在主题活动、投稿论文数、参加人数上比往年有了新的阶段。 NeurIPS 2018聚集了近9千名参与者，最终接受了1010篇论文，其中4篇论文被选为最高论文，涵盖了10个研究领域。

读完新论文后，别忘了旧论文。前几天，学术高层统计了入选NeurIPS 2017的论文2017.12至2018.12期间的引用量。引用量超过100篇论文有19篇，论文列表如下。

可以看出，引用量排在前三位的论文分别是Attention Is All You Need、improvedtraining of wassersteingans、动态路由Between capsules。以前，雷锋网解读过这些论文，所以今天和大家一起再复习吧。

注意事项所有需要

这是谷歌与多伦多大学等大学合作发表的论文，他们提出了新的网络框架——Transformer。转换器是一个完全基于注释机制(attention mechanism )的网络框架，放弃了RNN和CNN模型。

众所周知，在编解码框架中，主流的序列传递模型都是基于RNN或CNN的，其中能完美连接编码器和解码器的是注意力机制。谷歌提出的这个新框架转换器完全基于注意力机制。

使用“转换器”执行翻译任务的实验表明，该模型非常好，可以并行化，大大缩短了培训时间。 Transformer在WMT 2014英德翻译任务中实现了28.4 BLEU，改善了目前的最高成绩，包括两个以上BLEU的集合模式。在WMT 2014英法翻译任务中，在8个GPU上训练3.5天后，蓝牙得分最高为41.0，由训练成本最低的“Transformer”泛化的模型，是在大量数据集和有限的数据集上训练英语成分语法分析的任务。

注意机制是序列模型和传导模型的结合，不考虑输入输出序列距离，允许模型相互依赖，有时(但偶尔)将注意机制和RNN结合。

模型结构如下：

编码器：编码器由6个完整的层层叠而成，每层有2个子层。第一个子层是多头的自连接机制，第二层是简单的前馈网络全连接层。每一层的子层都有residual和规范化。

解码器：解码器也是由6个完全相同的层层叠而成的。每个层都有三个子层，在代码栈的输出中是一种多头注释机制。

“注意”(attention )功能通过将Query和一组键/值对映射到输出，将Query、键、值、输出等作为向量。输出是值的加权加法，加权是根据与值对应的query和键计算出来的。

improvedtrainingofwassersteingans

在这篇论文中，蒙特利尔大学的研究者改进了WGAN，提出了代替WGAN判别器中加权剪枝的方法。

论文摘要

生成对抗网络(GAN )将生成问题作为两个对抗网络的博弈。生成网络，根据规定的噪声生成合成数据，判别网络识别生成器的输出和实际数据。 GAN可以生成视觉上有吸引力的图像，但是互联网通常很难训练。在此期间，Arjovsky等人的研究人员对GAN值函数的收敛性进行了深入分析，提出了Wassersteingan(Wgan )，利用WasserStein距离生成了理论性质优于Jensen-Shannon发散值函数的值函数。但是，没有完全解决GAN训练的稳定性问题。

所做的工作：

通过小数据集上的实验，概述了判别器中的加权剪枝是如何引起影响稳定性和性能的病态行为的。

提出具有梯度惩罚的Wgan(Wganwithgradientpenalty )，避免同样的问题。

表明该方法具有比标准WGAN更快的收敛速度，可以生成更高质量的样本。

给出了该方法如何提供稳定的GAN培训。成功地训练了用于图像生成和语言模型的各种GAN架构，几乎不需要超参数变压器参数。

由于WGAN的临界函数对输入的梯度优于GAN，因此生成器的优化非常简单。另外，WGAN的值函数与生成样本的质量相关，这一性质在GAN中不存在。世界棒球经典赛

N 的一个问题是如何高效地在 critic 上应用 Lipschitz 约束，Arjovsky 提出了权重剪枝的方法。但权重剪枝会导致最优化困难。在权重剪枝约束下，大多数神经网络架构只有在学习极其简单地函数时才能达到 k 地最大梯度范数。因此，通过权重剪枝来实现 k-Lipschitz 约束将会导致 critic 偏向更简单的函数。如下图所示，在小型数据集上，权重剪枝不能捕捉到数据分布的高阶矩。

由于在 WGAN 中使用权重剪枝可能会导致不良结果，研究者考虑在训练目标上使用 Lipschitz 约束的一种替代方法：一个可微的函数是 1-Lipschitz，当且仅当它的梯度具有小于或等于 1 的范数时。因此，可以直接约束 critic 函数对其输入的梯度范数。新的 critic 函数为：

使用 GAN 构建语言模型是一项富有挑战的任务，很大程度上是因为生成器中离散的输入输出序列很难进行反向传播。先前的 GAN 语言模型通常凭借预训练或者与监督最大似然方法联合训练。相比之下，使用该论文的方法，不需采用复杂的通过离散变量反向传播的方法，也不需要最大似然训练或 fine-tune 结构。该方法在 Google Billion Word 数据集上训练了一个字符级的 GAN 语言模型。生成器是一个简单的 CNN 架构，通过 1D 卷积将 latent vector 转换为 32 个 one-hot 字符向量的序列。

该文提供了一种训练 GAN 的稳定的算法，能够更好的探索哪种架构能够得到最好的生成模型性能。该方法也打开了使用大规模图像或语言数据集训练以得到更强的模型性能的大门。

本论文在github上开源了代码：github（https://github.com/igul222/improved_wgan_training）

本论文同时也提供了详细的数学证明，以及更多的示例，进一步了解请阅读原论文：Improved Training of Wasserstein GANs（https://arxiv.org/abs/1704.00028）

Dynamic Routing Between Capsules

为了避免网络结构的杂乱无章，Hinton 提出把关注同一个类别或者同一个属性的神经元打包集合在一起，好像胶囊一样。在神经网络工作时，这些胶囊间的通路形成稀疏激活的树状结构（整个树中只有部分路径上的胶囊被激活），从而形成了他的 Capsule 理论。Capsule 也就具有更好的解释性。

Capsule 这样的网络结构在符合人们「一次认知多个属性」的直观感受的同时，也会带来另一个直观的问题，那就是不同的胶囊应该如何训练、又如何让网络自己决定胶囊间的激活关系。Hinton 这篇论文解决的重点问题就是不同胶囊间连接权重（路由）的学习。

解决路由问题

首先，每个层中的神经元分组形成不同的胶囊，每个胶囊有一个「活动向量」activity vector，它是这个胶囊对于它关注的类别或者属性的表征。树结构中的每个节点就对应着一个活动的胶囊。通过一个迭代路由的过程，每个活动的胶囊都会从高一层网络中的胶囊中选择一个，让它成为自己的母节点。对于高阶的视觉系统来说，这样的迭代过程就很有潜力解决一个物体的部分如何层层组合成整体的问题。

对于实体在网络中的表征，众多属性中有一个属性比较特殊，那就是它出现的概率（网络检测到某一类物体出现的置信度）。一般典型的方式是用一个单独的、输出 0 到 1 之间的回归单元来表示，0 就是没出现，1 就是出现了。在这篇论文中，Hinton 想用活动向量同时表示一个实体是否出现以及这个实体的属性。他的做法是用向量不同维度上的值分别表示不同的属性，然后用整个向量的模表示这个实体出现的概率。为了保证向量的长度，也就是实体出现的概率不超过 1，向量会通过一个非线性计算进行标准化，这样实体的不同属性也就实际上体现为了这个向量在高维空间中的方向。

采用这样的活动向量有一个很大的好处，就是可以帮助低层级的胶囊选择自己连接到哪个高层级的胶囊。具体做法是，一开始低层级的胶囊会给所有高层级的胶囊提供输入；然后这个低层级的胶囊会把自己的输出和一个权重矩阵相乘，得到一个预测向量。如果预测向量和某个高层级胶囊的输出向量的标量积更大，就可以形成从上而下的反馈，提高这两个胶囊间的耦合系数，降低低层级胶囊和其它高层级胶囊间的耦合系数。进行几次迭代后，贡献更大的低层级胶囊和接收它的贡献的高层级胶囊之间的连接就会占越来越重要的位置。

在论文作者们看来，这种「一致性路由」（routing-by-agreement）的方法要比之前最大池化之类只保留了唯一一个最活跃的特征的路由方法有效得多。

网络构建

作者们构建了一个简单的 CapsNet。除最后一层外，网络的各层都是卷积层，但它们现在都是「胶囊」的层，其中用向量输出代替了 CNN 的标量特征输出、用一致性路由代替了最大池化。与 CNN 类似，更高层的网络观察了图像中更大的范围，不过由于不再是最大池化，所以位置信息一直都得到了保留。对于较低的层，空间位置的判断也只需要看是哪些胶囊被激活了。

这个网络中最底层的多维度胶囊结构就展现出了不同的特性，它们起到的作用就像传统计算机图形渲染中的不同元素一样，每一个胶囊关注自己的一部分特征。这和目前的计算机视觉任务中，把图像中不同空间位置的元素组合起来形成整体理解（或者说图像中的每个区域都会首先激活整个网络然后再进行组合）具有截然不同的计算特性。在底层的胶囊之后连接了 PrimaryCaps 层和 DigitCaps 层。

胶囊效果的讨论

在论文最后，作者们对胶囊的表现进行了讨论。他们认为，由于胶囊具有分别处理不同属性的能力，相比于 CNN 可以提高对图像变换的健壮性，在图像分割中也会有出色的表现。胶囊基于的「图像中同一位置至多只有某个类别的一个实体」的假设也使得胶囊得以使用活动向量这样的分离式表征方式来记录某个类别实例的各方面属性，还可以通过矩阵乘法建模的方式更好地利用空间信息。不过胶囊的研究也才刚刚开始，他们觉得现在的胶囊至于图像识别，就像二十一世纪初的 RNN 之于语音识别——研究现在只是刚刚起步，日后定会大放异彩。

论文全文参见：https://arxiv.org/pdf/1710.09829.pdf