智能阿里(阿里云王坚)

机器心脏释放

机器智信编辑部

针对AI工程落地的实践经验，阿里巴巴云给出了三个需要具备的基本能力：平台云生物化学、超大规模模型和AI服务场景。

2021年，AI工程的未来充满期待。

Gartner将“人工智能工程”列为2021年九大重要战略技术趋势之一。根据Gartner的数据，只有53%的项目可以从AI原型转化为生产。人工智能要成为企业生产力，就必须利用工程技术解决模型开发、部署、管理和预测等全链路生命周期管理问题。

也就是说，没有AI项目，企业无法将AI项目从概念证明和原型转移到全面生产。那么，对于需要AI的企业来说，应该选择什么样的方法和服务商来获取AI工程能力呢？

权威的市场报告是很好的参考。Gartner最近发布了两个AI魔力象限《Magic Quadrant for Data Science and Machine Learning Platforms（数据科学与机器学习平台）》(以下简称“DSML报告”)和《Magic Quadrant for Cloud AI Developer Services（云 AI 开发者服务）》(以下简称“CAIDS报告”)，对全球厂商进行了年度评估。这两份报告可以看作是AI工程领域的盘点，为想要选择合适的DSML和CAIDS解决方案，提高AI生产力的企业提供权威参考。

从厂商分布格局来看，阿里巴巴云成为DSML报告四年历史中入选的第一家中国厂商；在CAIDS报告中，阿里巴巴云、百度云、腾讯云均进入报告，其中阿里巴巴云成为唯一一家进入愿景象限的中国厂商。

这意味着阿里巴巴云凭借其产品矩阵、技术实力、商业化能力和开发者服务，率先帮助企业打造AI工程。

根据AI工程落地的实践经验，阿里巴巴云给出的答案是具备平台云生化、超大规模模型、AI服务场景三大基础能力。

平台云原创生物化学

AI工程落地的第一个基础能力是平台云源生物化学。事实上，构建AI平台的方法有很多，但云原生是目前最通用的方法。由于云原生门槛不高，对技术选择没有具体限制，尤其是其倡导的开放性、灵活性、生态性原则，可以快速降低AI平台的实现门槛。

开放意味着我们需要把OpenAPI放在产品的第一位，支持用户和其他云产品通过OpenAPI访问产品的所有功能，可以通过第二、第三方厂商的工具自由集成；同时，他擅长调用云上的其他产品来构建自己的服务，比如云数据库上的RDS和云日志服务上的SLS。弹性就是在设计之初想象产品的规模，尽量不要自己搭建物理资源，充分利用云的弹性。生态有两层含义。一是保持与行业开源社区的合作，尽量不要复制造轮和发明新规范。二是开放内容生态，可以吸引个人开发者和企业共同打造AI平台，繁荣生态。

然后，看看机器学习领域，尤其是流行的深度学习。平台所需的计算能力主要依赖于异构计算硬件。一个典型的例子就是NVIDIA GPU卡，但是自建GPU机房的成本非常高，配套的软件环境也会非常复杂，操作维护困难。

此时云原生可以很好的解决这个问题：基于开放容器化技术，只需要开发一次，软件环境可以批量复制，灵活部署，有利于DevOps的实践。同时，机器学习中的MLOps强调模型效果的可再现性，容器技术一键打包所有配置和参数，保证环境的一致性，大大提高开发效率。

从应用的角度来看，机器学习模型的构建和训练只是业务系统的一部分，需要与企业的其他系统进行集成，这就对机器学习平台的OpenAPI服务的部署提出了更高的要求。

也就是说，云原生所强调的统一部署、标准化、OpenAPI、灵活性等要素非常suitab

阿里巴巴云的机器学习PAI已经完全拥抱云原生。通过与阿里巴巴云IaaS的产品无缝连接，充分利用云资源的弹性，遵循阿里巴巴云OpenAPI规范。

放 API、SDK 和命令行，保证 GPU 卡的弹性调度，降低客户自建 GPU 环境的复杂度和成本，为其提供灵活、易用和功能丰富的机器学习全栈产品。

依托云原生技术，PAI 平台陆续完善 EAS 云原生弹性推理服务平台、DSW 云原生交互式建模平台、DLC 云原生 AI 基础平台后，可实现 100% 兼容开源的轻量化、小型化灵活输出。一个典型的例子是 PAI-DSW 的用户可以轻松拿到一个完全配置好的机器学习环境，并且每次登录环境都保持一致。

模型超大规模化

机器学习平台对超大规模模型的支持能力一定程度反应了其自身的成熟程度，是其支持 AI 业务模型和能力升级的体现。这也是模型超大规模化成为 AI 工程化落地第二个基础能力的主要因素。

2021 年初，阿里云机器学习 PAI、达摩院智能计算实验室联合清华大学共同开发了业界最大规模的中文多模态预训练模型 M6。该模型参数规模超千亿，具备超越传统 AI 的文本、图像的理解和生成能力，图像设计效率超越人类，可应用于产品设计、信息检索、机器人对话、文学创作等领域。以图像生成为例，模型可设计包括服饰、鞋类、家具等 30 多个物品类别的图像，最短可以在一分钟内完成作品创作。

千亿多模态预训练模型对当前深度学习框架提出来很多挑战，包括模型计算效率、模型分布式训练性能、数据 IO、模型训练收敛性等。针对这些挑战，PAI 团队自研了 Whale 分布式训练框架，在计算效率、通信效率、显存消耗等多个方面进行了深度优化，从而帮助千亿多模态预训练模型快速迭代训练。

这背后的技术实现是：Whale 分布式训练框架基于 Graph IR，针对数据并行、模型并行、流水并行、混合并行等多种并行模型进行了统一架构设计，并对用户提供并行策略原语，用户在仅仅添加几行 API 调用的情况下就可以实现丰富的分布式并行策略。同时，Whale 实现了包括自动 Gradient Checkpointing、Optimizer 峰值显存优化、通信分组和线程池技术、混合精度、编译优化等优化技术。算法同学不需要修改模型代码，只需添加简单几行的 API 调用就可以快速构建高效的分布式训练任务。

在千亿多模态预训练模型这个任务上，PAI 团队和算法建模同学进行了紧密的合作。模型结构上，借鉴近期 Gshard 和 switch transformer 等工作，M6 模型实现中加入了 Gshard 的 Mixture-of-Experts 设计。

借助 Whale 分布式训练框架，M6 首次在 2 天以内完成 1 亿样本的预训练，相比于 OpenAI 整个任务训练成本大幅下降；在语言模型实验上，M6 对比同等 flops 的非 MoE 模型能够实现语言模型困惑度（PPL）的显著降低；在中文图文描述的下游任务实验上，M6 生成的准确率对比 baseline 取得 19.2% 的提升，对比百亿 M6 还能取得约 12.1% 的提升。

稠密模型的复杂度急剧提升，直观的表现是模参数越来越多，规模越来越大，需要的硬件资源（内存、GPU）越来越多，不利于模型的部署和应用推广，因此需要更小、更精炼的模型。

模型蒸馏是一种优化的思路，能将训练好的复杂模型迁移到结构更为简单的网络中。PAI-EasyTexMiner 知识蒸馏具备了将大规模预训练模型蒸馏到小模型上的能力，且在阿里不同的场景业务中取得了不错的效果。例如，大家每天都使用的淘宝客服机器人“阿里小蜜“，在热线意图识别方面，通过知识蒸馏，在效果基本一致的前提下，模型大幅简化，推理效率提升了 8.5 倍。

和稠密模型蒸馏出小模型不同，超大规模稀疏模型备受关注是训练能力。PAI-TensorFlow 超大规模分布式训练能力，支持万亿样本、千亿特征规模的模型训练。针对稀疏模型场景，PAI 团队在通信、图优化、算子、Runtime 等方面进行了深度性能优化，提供稀疏场景下的动态弹性特征、特征淘汰及准入、增量模型加载及更新等能力，支撑阿里巴巴核心的搜索、推荐、广告业务场景的同时，支持了大量公共云稀疏场景下的模型训练及预测。在某公共云业务场景中，PAI-TensorFlow 对比开源 TensorFlow 训练性能提升 10 倍以上，并基于动态弹性特征及增量模型更新的能力，实现了稀疏场景下 Online DeepLearning 秒级模型更新的能力。

可以看到，无论是业界最大规模的中文多模态预训练模型 M6 还是超大规模稀疏模型领先于业界数倍的训练能力，阿里云通过不同方式将稠密模型和稀疏模型的工程化能力输出给用户。

AI 服务场景化

AI 工程化如何把 AI 转化为生产力？行业 AI 落地是第三条必不可少的能力。也就是说，AI 服务要与场景结合，你不仅要懂 AI、更要懂行业。

只是，行业 AI 想要做好落地，并没有那么简单。

企业一般有定制 AI 模型和通用 AI 模型两种选择，前者购买后无法实现自我迭代，行业数据复杂度高、专家知识难以有效传承等因素导致相似项目难以简单复用；后者具有局限性，不支持行业特定业务需求。

针对这些问题，依托阿里巴巴内部电商、金融、游戏、直播等多个业务场景，PAI 在推荐、广告、用户增长、金融风控、音视频文本多模态等个性化场积累了丰富的实战经验及企业级 AI 解决方案。同时，也沉淀了大量成熟算法、框架及工程化组件。在阿里云，这些能力称之为原子能力。PAI 平台提供的这些原子能力，可以帮助用户更快地孵化和构建新场景业务。

如今，PAI 的行业场景化服务通过阿里云开放给所有企业。通过场景化插件，企业只需要按标准的数据接口接入就可以轻松完成整个建模链路，带来业务效率的快速提升。

例如在众多互联网客户中被广泛应用的 PAI 智能推荐解决方案，可以帮助企业开发者 10 天左右快速搭建企业级智能推荐系统。平台提供了 GraphSage、DeepFM、DIN 等业内经典推荐类算法，企业客户可以获得从召回到排序的全链路白盒化推荐能力，自主可控的掌握推荐业务的全部核心技术环节。

除了互联网行业之外，PAI 还支持金融、教育、城市管理等行业场景，提供专家服务，贴身结合企业业务场景和痛点提供定制 AI 方案。通过 PAI 模型的持续迭代优化，某城市大脑成功地完成了企业变更风险预测、食品抽检风险预测、执法人员画像、职业打假预警等市场监管模型，提升了市场监管的效率，有效降低各个场景的风险。

总结来说，平台云原生化、模型超大规模化、AI 服务场景化是 AI 工程化落地具备的三大基础能力，阿里云依托云原生能力，提供灵活组合的机器学习平台，提升 AI 工程效率的同时，帮助企业将 AI 转化为生产力。