淘宝bp链接生成器,阿里AI平台

简介：随着移动端APP应用的兴起，模型压缩作为实现深度学习模型轻量化部署的有效手段备受关注。机器学习也从理论研究阶段开始，明显有工程化、应用落地的趋势，那么模型压缩在淘宝直播游戏场景中起着怎样的重要作用呢？一起揭开神秘的实践面纱吧。随着移动APP应用的兴起，安装包的压缩包技术越来越成熟，可以在4G网络时代轻松下载，在我们的手机上安装了各种APP也运行顺畅。模型压缩也有相似的效果，机器学习从理论研究开始逐渐尝试技术落地，AI工程化也成为一种趋势。模型压缩作为实现深度学习模型轻量化部署的有效手段备受关注。

简而言之，模型压缩是指在尽可能不改变模型效果的情况下减少模型体积，提高模型运行速度，并减少放置在深度模型末端的资源消耗。

2020年不在场证明11月，淘宝直播APP上线的“猜到底”语音交互游戏中，AlibabaCloud (阿里巴巴云)机器学习PAI平台的模式压缩技术扮演着重要角色，终端智能APP应用程序

“一猜到底”游戏背后的模型压缩技术

淘宝直播APP上线的“猜到底”游戏：人气主播现场推荐商品，粉丝以“语音猜价”的形式参与互动。新的交互形式加上双十一，上线后带来了爆发性上升的流量，对模型的性能和工程化能力要求极高。

图1淘宝直播《商品价格战博弈》: 1 )在淘宝直播中找到“猜到底”； 2 )首席猜测官勤奋棒棒糖3 )游戏直播、米娅直播；

经过阿里众多技术团队的磨练，“猜到底”游戏已经成为落地终端的成功案例，能够经得起淘宝直播高接入流量的严峻考验。语音识别(ASR )技术在“低错误率”(Low Error Rate )和“高实时率”(High RTF )两者中均提供卓越的性能。在此基础上，PAI团队提供了经验证的模型压缩支持，在帮助压缩模型的同时，保证了语音识别的高精度，实现了模型在移动端部署时的ROM/RAM/RTF，即参数存储、运行时存储器、实时

PAI模型压缩：混合精度量化技术

模型压缩是PAI云一体化解决方案的重要环节。如图2所示，在面向移动终端的智能语音E2E优化导入链路中，PAI模型压缩技术(混合精度后量化、量化训练、稀疏训练等)起着模型瘦身、复杂度分解的重要作用。

图2 PAI模型压缩在E2E链路上的xxdbm作用

图3 SAN-M模型结构：将特征驱动的自助训练和训练驱动的DFSMN存储单元相结合，实现全局相关和局部相关特征的有效融合

基于PAI团队开发的混合精度量化方法，有效实现了transformerASR(San-m )模型的离线后量化(ptq )，主要创新点如下

支持端到端Transformer的离线后量化，与分解图量化、量化训练等方法相比，端到端后量化具有快速高效的优势，有助于用户一键部署量化方案；

整合了丰富的后期定价策略，为后期定价的精度鲁棒性提供了坚实的保证；

无Label干预的混合精度量化过程不需要提供数据标记，即可准确反映各层次量化的灵敏度；

PAI模型压缩：支持端到端Transformer的离线后量化

由于Transformer模型存在自回归循环解码操作，难以直接获取解码器中热情的蜜粉数据，现有的模型压缩框架和推理优化工具很难支持端到端Transformer的离线后量化

如图4所示，PAI团队的后期定制方法引入了循环热心的蜜粉探针(Tensor Probe )的使用，可以有效地支持端到端的Transformer的离线后期定制。循环体内的热情蜜粉(Tensor )通过几个延迟单元的传输，构成了不同时间信号的集合。导出这些信号数据后，可以有效地支持脱机量化参数的统计计算(如最小化KL、MSE或Cosine距离等策略)。

图4使用循环热情的蜜粉探针(Tensor Probe )

PAI模型压缩：集成了丰富的后量化策略

当对传输器模型执行分层量化时，量化噪声(主要包括Round误差和Clip误差)被引入到每个网络层的输入/输出意愿的蜜粉和网络权重的量化中

图5是逐步量化所引入的量化噪声

PAI团队的后期量化方法集成了几种改善量化效果的PTQ策略，帮助用户在后期培训阶段妥善解决量化误差问题，实现量化培训(qat ) 具体的PTQ策略，包括改进的KL算法、EasyQuant、Bias Correction和ADMM :

改进KL算法可以有效降低输入输出意愿蜜粉的量化噪声；另外，可以根据活动的数据分布，自动选择最佳的KL策略；

使用• EasyQuant (参考文献[1] )，可以进一步减少有输入输出意愿的蜜粉的量化误差，特别是可以改善INT7等更低精度的量化效果

通过补偿• Bias Correction (参考文献[2] )网络的权重量化偏置(均值和方差之间的偏差)来减少权重量化噪声；同时适合Bias Correction

改进，增强了对达摩院Transformer ASR的补偿效果；
• ADMM（参考文献 [3]）亦可优化权重量化参数，减少权重量化噪声；也适当改进了ADMM的使用，从而在交替方向迭代范围内，确保权重量化误差最小；
• Weight Adjustment（参考文献 [4]）在Kernel weight按Per-tensor量化时，通过Per-channel形式的等价均衡变换，可以减少Weight量化误差。

PAI模型压缩：无Label干预的混合精度量化流程
如图6所示，基于多种后量化策略的有效集成，PAI团队提出了Label-free混合精度量化流程（Label-free AMP Pipeline, AMP：Automatic Mixed Precision）：
• 该流程从模型输入到混合精度决策，无需数据标注（Label）的干预，简洁易用、快捷有效；
• 量化误差按逐层统计，并能准确表示每个网络层的量化敏感度，为混合精度（INT8/FP32混合）决策提供了有效基础；
• 通过把控回退的网络层数，可选择出精度与模型容量折中最佳的帕累托最优解，完成多目标优化；
• 生成的混合精度量化表，能够对接移动端推理框架MNN，以生成低延迟、高推理精度的运行时推理引擎；从而构成了完整的工具链路，即从混合精度量化、到移动端的推理部署；
• AMP Pipeline不仅适用于移动端，也适用于CPU/GPU优化部署，体现了PAI云端一体的优势所在。

图6 Label-free混合精度量化流程（Label-free AMP Pipeline）

基于AMP Pipeline，在移动端部署Transformer ASR模型时，通过回退Op数的把控，可以实现WER (SER)与ROM/RAM (RTF)之间的合理折中，妥善解决多目标优化问题。需要注意的原则主要有：
• Model size、Latency与内存占用等，都会随着回退Op数的增加而增加，通常可以视作统一的目标函数，并以回退Op数作为自变量；
• 在相同的Pareto front上，回退Op数越多，通常WER越低、Model size越高，因此需要折中选择；
• 不同的Pareto front (取决于PTQ策略的改善效果)，回退相同的Op数，达到的折中状态有所不同；参考图7所示的Pareto fronts，都回退Op1，Pareto2的状态、优于Pareto1的状态；
• AMP目标：采用更有优势的PTQ策略，得到更好的Pareto front，为混合精度择优提供有效基础；

图7 两种Pareto front的对比

下表展示出了双十一使用的Transformer ASR模型，在众包测试集上的精度表现，包括FP32、全INT8、AMP INT8的对比。相比于原浮点模型，经过AMP INT8量化之后（回退3个Op，分类层保留为FP32实现），ASR模型的WER绝对损失低于0.1%、SER绝对损失低于0.5%、理论压缩比约为3.19倍。并且，量化模型对Bad case也体现出了较强的鲁棒性，助力淘宝直播“价格竞猜游戏”经受住了直播场景的严格考验。
表1 双十一模型在7K众包测试集上的表现

PAI模型压缩简介
离线量化相关的策略（包括PTQ/AMP等），已集成至Blade；并且支持随机稀疏压缩与PTQ叠加使用，例如60%稀疏度时，叠加INT8量化、压缩比可达6.6倍左右；
除了离线后量化之外，在诸如量化训练、网络剪枝、权重稀疏化与模型结构搜索等模型压缩领域，PAI团队也长期坚持耕耘。其中量化训练、稀疏训练与网络剪枝的产品化体验，可参考PAI用户手册。
以量化训练为例，PAI与阿里MNN团队合作提出了Winograd INT8量化与计算加速技术、并发表了合作论文 [5]。在下游迁移阶段，针对带有一维卷积（kernel size>=3）的ASR模型，经过Winograd INT8量化训练，能够有效确保ASR模型的量化精度鲁棒性，并进一步实现了一维卷积在移动端的INT8计算加速。从PAI量化训练、到MNN移动端优化部署，同样构成了完整的量化/优化工具链路。

图8 从大规模预训练、到量化微调、再到优化部署的工具链路

机器学习PAI平台面向企业客户及开发者，提供轻量化、高性价比的云原生机器学习平台，涵盖交互式建模、拖拽式可视化建模、分布式训练到模型在线部署的全流程覆盖。内置200+成熟算法、图像视觉、音视频、文本等AI领域高质量深度学习预训练模型50+，帮助开发者快速构建AI业务方案，全面提升机器学习工程效率。目前已在游戏、社区、媒体、广告平台的搜索推荐、多媒体内容处理、自动驾驶等多领域商用。全新官网：https://www.aliyun.com/product/bigdata/product/learn

参考文献：
[1] Di Wu, Qi Tang, Yongle Zhao, Ming Zhang, Ying Fu, Debing Zhang, "EasyQuant: Post-training Quantization via Scale Optimization", arXiv preprint 2006.16669, 2020.
[2] Ron Banner, Yury Nahshan, Elad Hoffer, Daniel Soudry, "Post-training 4-bit quantization of convolution networks for rapid-deployment", arXiv preprint 1810.05723, 2018.
[3] Cong Leng, Hao Li, Shenghuo Zhu, Rong Jin, "Extremely Low Bit Neural Network: Squeeze the Last Bit Out with ADMM", arXiv preprint 1707.09870, 2017.
[4] Markus Nagel, Mart van Baalen, Tijmen Blankevoort, Max Welling, "Data-Free Quantization Through Weight Equalization and Bias Correction", arXiv preprint 1906.04721, 2019.
[5] Yiwu Yao, Yuchao Li, Chengyu Wang, Tianhang Yu, Houjiang Chen, Xiaotang Jiang, Jun Yang, Jun Huang, Wei Lin, Hui Shu, Chengfei Lv, "INT8 Winograd Acceleration for Conv1D Equipped ASR Models Deployed on Mobile Devices", arXiv preprint 2010.14841, 2020.

作者：无私的宝贝、受伤的花卷、莱茵、hldxl、嘀豆、执真、临在、zzddx

原文链接：https://developer.aliyun.com/article/781958?