深度学习的技术要点,深度学习推断阶段

深度学习一般分为训练和在线推断两个部分，大家平时经常关注的多为训练阶段，也就是搜索和求解模型最优参数的阶段。而当模型参数已经求解出来，如何使用模型，以及在在线环境中部署模型，也是非常重要的。

一般会比较关注其中的一些技术点：

访问延迟吞吐量模型版本管理 DevOps

大公司较为倾向自己造轮子，而小公司更倾向于用开源方案。

1 软件层：

1.1 Tensorflow Serving：

TensorFlow Serving 是一个用于机器学习模型 serving 的高性能开源库。它可以将训练好的机器学习模型部署到线上，使用 gRPC 作为接口接受外部调用。更加让人眼前一亮的是，它支持模型热更新与自动模型版本管理。这意味着一旦部署 TensorFlow Serving 后，你再也不需要为线上服务操心，只需要关心你的线下模型训练。

1.2 Nginx等服务软件。

1.3 或采用自研Model Serving服务器。

2 硬件层：

CPU方案：较为常用方式。

GPU方案：英伟达也推出了适合在线推断场景的GPU型号。

FPGA方案：一些公有云厂商尝试尝试退出FPGA在线推断的云服务，一些有较强自研能力的AI公司也开始尝试FPGA。

友情推荐：ABC技术研习社

为技术人打造的专属A(AI),B(Big Data),C(Cloud)技术公众号和技术交流社群。