emnlp全称(emnlp投稿时间)

作者

编辑智商下降了

让模型跑得快，好，空间占用少，真的有这样的效果吗？

在现在的新冠灾祸反复出现的情况下，大家平时外出用健康宝洗脸的频率越来越高。如果每次脸部识别都需要等待很久的话，那就太不安了，会有弄坏手机的冲动。另外，为了提高模型的识别效果，不能经常弄错。必须使用跑得慢的大模型来提高效果。那么，如何在这两者之间取得平衡呢？一边让模型跑得又快又好，一边必须留出足够的空间，有效果吗？那就必须提到模型的压缩和最近兴起的自动机器学习技术。能够在压缩模型的同时自动搜索更有效的结构，不是很美吗？

在NLP领域，BERT等预先训练过的语言模型在很多任务中取得了很好的效果，但是有太大的体积和推理时间，大大限制了实际的部署。为了解决这个问题，提出了知识蒸馏(Knowledge Distillation，KD )技术等许多模型压缩方法。用于训练模型压缩的知识蒸馏的方向取得了很大的进展，但是Transformer结构中的前馈神经网络(Feed-forward Network， fn )压缩和改进方面的研究还很少，其计算成本是多头注释(Multi-head Attention，MHA )模块之二，[1]前馈网络中的多层传感器(Multi-head Attention，MHA )模块还指出了MLP )结构可以防止自我注意机制引起的秩衰变) rank collapse )的问题，有助于模型的优化。因此，在最大限度压缩前馈网络的同时，找出具有更优非线性的前馈网络结构，提高模型效果是一个值得关注的问题。

此外，自动机器学习技术，特别是模型架构自动检索(Neural Architecture Search，NAS )，在计算机视觉和自然语言处理领域备受瞩目，比起人工设计的结构，模型可以从庞大的检索空间自动检索出来因此，自然会想到利用这种技术来探索符合需求的前馈网络结构。但是，由于搜索空间往往非常巨大复杂，如何有效地进行模型体系结构的搜索也是亟待解决的问题。

基于网络架构搜索的模型压缩方法以前也有很多人进行过研究，例如基于AdaBERT[2]卷积神经网络搜索任务自适应的小模型。但是，这些方法对转发器中前馈网络的非线性还没有进行探讨；检索空间受限于人工设计，不具有灵活性的通用性也值得研究。

为了解决这个问题，今天我们来介绍一下Findings of EMNLP 2021中收录的工作“高效伯特”。在搜索空间中，该方法主要对转换器前馈网络的数学表达式进行搜索，以发现具有更优非线性的模型结构；另外，还考虑网络的层叠数和中间通道数，综合平衡模型的参数量和推理时间。关于检索方法，本文提出了从粗到细的检索策略，以便对检索空间的各个部分进行渐进检索，提高检索效率；另外，为了使各搜索子结构在训练时更快收敛，提高模型的泛化性能，提出了热启动知识蒸馏(Warm-up KD )战略。

论文标题

高效Bert :进度层连接多层外围设备-知识库

论文链接

https://arxiv.org/abs/2109.07222

开放源代码

359 Github.com/Cheney don /高效-伯特

1方法

提出的方法主要分为搜索空间的设计和基于热启动知识蒸馏的渐进搜索方法两个部分。

在

1.1 搜索空间

搜索空间设计中，首先搜索前馈网络的数学表达式，从而反映网络的非线性能力，并据此定义了以下基本的数学操作符号。

另外，还搜索了前馈网络的层叠数和中间信道的放大率，平衡了模型的参数量和推理时间，分别从{1、2、3、4}和{1、1/2、1/3、1/4}中进行了选择。检索时，各前馈网络结构由有向图构建，上述操作被放入中间节点处理输入特性。

有趣的是，在本文中，如上述框架图所示，检索前馈网络整体的公式，如激活函数、复杂的嵌套表达和组合表达等，各层网络的公式也各不相同。例如，在该语句中检索到的EfficientBERT模型的4、5层的公式

线性2 _2(gelu )线性2 _2)最大值) x，三角网(x )，wb1 )，wb2 )和

linear1_2(relu(mul(linear1_2(x,wb1),x)),wb2)

，其中linear x_y表示其所在的前馈网络的堆叠层数为x、中间通道扩增比例为1/y，wb i表示第i个线性层的权重和偏置。

1.2 搜索方法

首先是基础搜索模型（Base Model）结构的设计。该文综合采用了之前工作的一些压缩方法，比如嵌入层因子分解（embedding factorization），减少模型宽度、深度、中间通道扩增比例等。

接下来是搜索过程，整个搜索过程被分为三个阶段：

在第一阶段，对整个搜索空间进行联合搜索，其基于上述基础搜索模型结构。每个搜索子模型通过LaNAS[3]中提出的一种可学习的采样决策树进行采样，使得更具有潜力的子模型可以以更大的概率被采样到。为了避免不同数学表达式之间参数干扰的问题，在这个阶段不同的子模型被单独地进行训练。同时，为了使每个子模型的训练更快地收敛，该文提出一种热启动知识蒸馏方法。首先建立一个热启动超级网络，该网络有着最大的堆叠层数和中间通道扩增比例。将该超级网络通过知识蒸馏预训练好之后固定其权重，在搜索时每个子模型从对应位置继承其权重，之后利用知识蒸馏只需要少量的预训练和微调步数即可达到收敛，节省了大量搜索时间。

在第二阶段，对数学表达式进行单独搜索，以发掘其更多样化的表达并评估其对模型最终效果的影响，并将其它两个部分的结构固定住（即堆叠层数和中间通道扩增比例）。该阶段基于第一阶段搜索到的结构进行搜索，并采用和第一阶段相同的知识蒸馏方式。

在第三阶段，对堆叠层数和中间通道扩增比例进行联合搜索。该阶段基于第二阶段搜索到的结构进行搜索，其数学表达式被固定，但使用了不同的堆叠层数和中间通道扩增比例组合，以增加搜索多样性。由于无需对数学表达式进行搜索，该阶段采用权重共享方法加速搜索。在该阶段的热启动知识蒸馏过程中，将热启动超级网络预训练好之后，其权重不再被固定；在搜索时，每个搜索子模型被均匀采样，继承超级网络参数后进行训练，且不同子模型的参数可以共享。为了提高模型的泛化性，在训练时采用了多任务训练的方法，让每个子模型在不同种类的下游任务上进行微调。其中嵌入层和Transformer层的参数在所有任务上共享，但不对预测层参数进行共享。

实验

首先是在GLUE test和SQuAD dev数据集上与之前的模型压缩方法进行比较：

并在GLUE dev数据集上与之前相关的利用架构搜索进行模型压缩的方法进行比较：

可以看到，在相似的参数量下，本文搜索到的模型EfficientBERT效果远远超过了之前效果最好的模型压缩方法（TinyBERT[4], MobileBERT[5], MiniLM[6]等），也超过了之前利用架构搜索的模型压缩方法（AdaBERT[2]，NAS-BERT[7]等）。

接下来，本文也给出各阶段搜索到模型的最终性能，验证提出的渐进架构搜索方法、以及搜索空间中各个部分的有效性：

本文也给出各个阶段的搜索时间，验证提出的渐进搜索方法的加速能力：

可以看到，本文提出的渐进搜索方法不仅可以搜索出更具有潜力的模型结构，而且可以加速搜索进程。

为了测试搜到的模型结构的泛化能力，EfficientBERT结构随后被迁移到了TinyBERT上：

此外，本文也给出各个子模型在搜索阶段和最终测试阶段预测结果的相关性结果，验证所提出的热启动知识蒸馏方法对不同子模型效果的预测排序能力：

可以看到，使用热启动知识蒸馏方法，子模型在各个下游任务上都可以在搜索和最终测试阶段的预测结果之间保持很高的正相关性。

为了直观地评估模型的非线性能力，本文对搜索到的前馈网络结构进行了可视化：

其中(d)-(f)是随机采样出的效果更差的几个搜索子模型。从上图可以看出，(a)-(c)相比于(d)-(f)曲线更加流畅且异常突增区域更少；并且从(a)到(c)，曲线的复杂程度越来越低，显示了搜索到的模型EfficientBERT优秀的非线性能力。

最后，本文将各个阶段搜索到的模型整体结构进行了可视化：

从最终阶段搜到的EfficientBERT结构中可以发现一些有趣的规律：

由于多数前馈网络中间通道扩增比例为1/2，且多数前馈网络堆叠层数少于2，因此搜索得到的EfficientBERT非常轻量；

更低层有着更大的堆叠层数或中间通道扩增比例（如第1, 2层），以最大程度地丰富模型的语义表达能力；

更高层有着更复杂的数学表达式（如第4, 5层），以提高模型的非线性表达能力。

总结

本文主要针对前馈网络的尺寸和非线性能力进行压缩和提升，设计了一种非常灵活庞大的搜索空间进行自动化架构搜索。为了提高搜索效率，本文提出了一种由粗到细的架构搜索方法，并在每个搜索阶段采用了一种热启动知识蒸馏方法来加速搜索并提高模型的泛化能力。大量实验证明了搜索到的模型EfficientBERT的有效性。

参考文献

[1] Yihe Dong, et al. Attention is not all you need: Pure attention loses rank doubly exponentially with depth. ICML 2021.

[2] Daoyuan Chen, et al. AdaBERT: Task-adaptive bert compression with differentiable neural architecture search. IJCAI 2020.

[3] Linnan Wang, et al. Sample-efficient neural architecture search by learning action space. TPAMI 2021.

[4] Xiaoqi Jiao, et al. TinyBERT: Distilling BERT for natural language understanding. Findings of EMNLP 2020.

[5] Zhiqing Sun, et al. MobileBERT: a compact task-agnostic BERT for resource-limited devices. ACL 2020.

[6] Wenhui Wang, et al. MiniLM: Deep self-attention distillation for task-agnostic compression of pre-trained transformers. NeurIPS 2020.

[7] Jin Xu, et al. NAS-BERT: Task-agnostic and adaptive-size bert compression with neural architecture search. KDD 2021.