金属物理性能测试,性能测试自学

在AI芯片领域，英伟达的GPU和谷歌的TPU是世界上仅有的能够处理BERT-Large模型的AI处理器。当一家名为Graphcore的英国创业公司推出IPU智能处理器（Intelligent Processing Unit）之后，这个数字变成了3，IPU也成为市面上为数不多的能与英伟达和谷歌PK的AI芯片产品之一。

2020年，当时曾在硬件领域引发关注的Graphcore IPU，已经过一次大的迭代，更新至第二代。相比第一代，第二代IPU（MK2 IPU）采用的是台积电7nm制程，芯片中含有1472个独立的处理器内核，片内存储达到900MB的SRAM。片内SRAM加上其首创的Exchange Memory存储机制，可以达到400GB以上的整体存储能力。

经过新能力的加持，这款产品的性能表现究竟怎样呢？

训练、推理性能超英伟达

2020年12月9日，Graphcore发布了基于第二代IPU（MK2 IPU）的IPU-M2000和纵向扩展的IPU-POD64的性能。

这套Benchmark覆盖了很多模型的训练结果，包括典型的CV模型ResNet、基于分组卷积的ResNeXt、EfficientNet、语音模型、BERT-Large（基于Transformer的自然语言处理模型）、MCMC等传统机器学习模型。在这些模型里面，我们可以看到IPU-M2000在训练和推理方面均显著优于NVIDIA的A100（基于DGX）。

具体的性能测试结果与解读：

训练

EfficientNet-B4：吞吐量高18倍ResNeXt-101：吞吐量高3.7倍BERT-Large：与DGX-A100相比，在IPU-POD64上的训练时间快5.3倍（比双DGX系统缩短2.6倍）

推理

LSTM：以更低时延实现吞吐量提升超过600倍EfficientNet-B0：吞吐量提升60倍/时延缩短超过16倍ResNeXt-101：吞吐量提升40倍/时延缩短10倍BERT-Large：以更低的时延实现吞吐量提升3.4倍

尤其在目前自然语言处理上最先进的模型BERT-Large上，IPU-POD64的端到端训练时间比最新的NVIDIA DGX-A100快5.3倍（比双DGX设置快2.6倍以上），显示出IPU-POD横向扩展解决方案在数据中心的优势，以及Poplar软件栈管理复杂工作负载的能力，这些工作负载能够利用多个处理器并行工作。

此外，价格/功率指示性的比对关系也显示出，1个IPU-POD64和3个DGX-A100的功率和价格基本相同，但却能够实现接近两倍的性能提升。

EfficientNet是谷歌在2019年开发的一个模型，分8各等级，B0是一个尺寸较小的模型，量级是5兆。

从上图可以看出，在PyTorch和TensorFlow两种不同的框架下，EfficientNet-B0在1台IPU-M2000上的吞吐量可以达到以“万”为单位的级别，时延远远小于5毫秒。而在最新的GPU上，即使在时延最大化的情况下，吞吐量也远远不足“万”级，可以看到IPU-M2000的时延优势。

在NLP模型，如典型的Deep Voice 3的训练中，该模型在IPU上的吞吐量是GPU的13.6倍。

在LSTM推理性能上，IPU在时延和吞吐量两方面也都有优势。

在计算机视觉方面，ResNet和EfficientNet的训练性能和推理性能也都有所提升。其中，ResNet-50相比A100训练可实现2.6倍性能提升，EfficientNet性能比A100提升10倍左右。

当前，IPU-M2000和IPU-POD64的Benchmark测试结果已开放在Graphcore官网上供公众查询。

除此之外，Graphcore在2020年接近尾声之际有了不少新进展和发布。

Poplar SDK 1.4发布，支持PyTorch

12月，Poplar SDK 1.4发布，并同时发布了面向IPU的PyTorch产品级版本。新发布的Poplar SDK 1.4版本支持PyTorch框架，加上其现有的对TensorFlow的支持，这意味着从事AI研究的开发人员可以更轻松地在Graphcore IPU上部署AI应用程序。

面向IPU的PyTorch支持的源代码已经在GitHub上开放，相应的指导手册、视频教程、例证等开发者资源，可以在Graphcore官网的开发者页面上找到。

阿里云HALO定制代码正式在GitHub开源

Graphcore是阿里云HALO的合作伙伴之一，为阿里云HALO定制开发的代码odla_PopArt已经在HALO的GitHub上开源，具体请见https://github.com/alibaba/heterogeneity-aware-lowering-and-optimization

加入MLPerf管理机构MLCommons

Graphcore还于近期宣布，其已经加入新成立的MLPerf管理机构MLCommons，成为MLCommons的会员，并将于2021年开始参加MLPerf的性能测试。

IPU-M2000和IPU-POD64系统已发货

与此同时，Graphcore的最新解决方案IPU-M2000和IPU-POD64系统已经在全球范围内交付，一些早期发货的产品已经在数据中心安装并运行。

IPU-POD64是由16台IPU-M2000组成的一个解决方案，实现了x86和IPU计算的解耦。此外，这还是目前市面上唯一可纵向和横向扩展的AI计算系统产品。

纵向扩展是指IPU-POD64可以实现从一台IPU-M2000到一个IPU-POD16（4台IPU-M2000），再到一个IPU-POD64（16台IPU-M2000）进行软件透明扩展。

IPU-POD64还可以很好地进行横向扩展，多个IPU-POD64最多可以支持64000个IPU组成的AI计算集群。通过横向、纵向两个维度，IPU-POD64可以大幅提升性能。

芯片创新，要引领潮流！

作为芯片领域的“专家”，Graphcore非常重视新技术和新方向。光芯片，无疑是未来芯片最热的方向之一。谈到光芯片的前景，Graphcore认为，业内都在研究光子计算、量子计算等各种各样的研究方向，但是最后哪个方向能够真正走通，并走向商业化，其实并不好预估。但今天，光芯片的本质是“光硅”，即使“光”算得很快，但和系统、网络和其他计算机部件通信时，最后还是要转化成硅，光芯片是一个比较前沿的探索方向，但距离产业落地还是要一段时间的。

上述对于光芯片前景的预判，只是Graphcore在芯片领域做出的专业预测之一。“引领潮流的人不会顺应潮流，因为他本身就是潮流”，这条准则放在芯片领域同样适用，技术在于创新，期待未来有更多像Graphcore IPU这样能够打开新局面的产品能够落地，从底层硬件上，夯实智能化时代的根基！