首页 > 编程知识 正文

金属物理性能测试,性能测试自学

时间:2023-05-04 11:06:27 阅读:259637 作者:2848

在AI芯片领域,英伟达的GPU和谷歌的TPU是世界上仅有的能够处理BERT-Large模型的AI处理器。当一家名为Graphcore的英国创业公司推出IPU智能处理器(Intelligent Processing Unit)之后,这个数字变成了3,IPU也成为市面上为数不多的能与英伟达和谷歌PK的AI芯片产品之一。

 

2020年,当时曾在硬件领域引发关注的Graphcore IPU,已经过一次大的迭代,更新至第二代。相比第一代,第二代IPU(MK2 IPU)采用的是台积电7nm制程,芯片中含有1472个独立的处理器内核,片内存储达到900MB的SRAM。片内SRAM加上其首创的Exchange Memory存储机制,可以达到400GB以上的整体存储能力。

 

经过新能力的加持,这款产品的性能表现究竟怎样呢?

 

训练、推理性能超英伟达  

2020年12月9日,Graphcore发布了基于第二代IPU(MK2 IPU)的IPU-M2000和纵向扩展的IPU-POD64的性能。

 

这套Benchmark覆盖了很多模型的训练结果,包括典型的CV模型ResNet、基于分组卷积的ResNeXt、EfficientNet、语音模型、BERT-Large(基于Transformer的自然语言处理模型)、MCMC等传统机器学习模型。在这些模型里面,我们可以看到IPU-M2000在训练和推理方面均显著优于NVIDIA的A100(基于DGX)。

 

具体的性能测试结果与解读:

 

训练

EfficientNet-B4:吞吐量高18倍ResNeXt-101:吞吐量高3.7倍BERT-Large:与DGX-A100相比,在IPU-POD64上的训练时间快5.3倍(比双DGX系统缩短2.6倍)

推理

LSTM:以更低时延实现吞吐量提升超过600倍EfficientNet-B0:吞吐量提升60倍/时延缩短超过16倍ResNeXt-101:吞吐量提升40倍/时延缩短10倍BERT-Large:以更低的时延实现吞吐量提升3.4倍

尤其在目前自然语言处理上最先进的模型BERT-Large上,IPU-POD64的端到端训练时间比最新的NVIDIA DGX-A100快5.3倍(比双DGX设置快2.6倍以上),显示出IPU-POD横向扩展解决方案在数据中心的优势,以及Poplar软件栈管理复杂工作负载的能力,这些工作负载能够利用多个处理器并行工作。

 

此外,价格/功率指示性的比对关系也显示出,1个IPU-POD64和3个DGX-A100的功率和价格基本相同,但却能够实现接近两倍的性能提升。

EfficientNet是谷歌在2019年开发的一个模型,分8各等级,B0是一个尺寸较小的模型,量级是5兆。

从上图可以看出,在PyTorch和TensorFlow两种不同的框架下,EfficientNet-B0在1台IPU-M2000上的吞吐量可以达到以“万”为单位的级别,时延远远小于5毫秒。而在最新的GPU上,即使在时延最大化的情况下,吞吐量也远远不足“万”级,可以看到IPU-M2000的时延优势。

在NLP模型,如典型的Deep Voice 3的训练中,该模型在IPU上的吞吐量是GPU的13.6倍。

 

在LSTM推理性能上,IPU在时延和吞吐量两方面也都有优势。

在计算机视觉方面,ResNet和EfficientNet的训练性能和推理性能也都有所提升。其中,ResNet-50相比A100训练可实现2.6倍性能提升,EfficientNet性能比A100提升10倍左右。

 

当前,IPU-M2000和IPU-POD64的Benchmark测试结果已开放在Graphcore官网上供公众查询。

 

除此之外,Graphcore在2020年接近尾声之际有了不少新进展和发布。

Poplar SDK 1.4发布,支持PyTorch  

 

12月,Poplar SDK 1.4发布,并同时发布了面向IPU的PyTorch产品级版本。新发布的Poplar SDK 1.4版本支持PyTorch框架,加上其现有的对TensorFlow的支持,这意味着从事AI研究的开发人员可以更轻松地在Graphcore IPU上部署AI应用程序。

 

面向IPU的PyTorch支持的源代码已经在GitHub上开放,相应的指导手册、视频教程、例证等开发者资源,可以在Graphcore官网的开发者页面上找到。

 

阿里云HALO定制代码正式在GitHub开源  

Graphcore是阿里云HALO的合作伙伴之一,为阿里云HALO定制开发的代码odla_PopArt已经在HALO的GitHub上开源,具体请见https://github.com/alibaba/heterogeneity-aware-lowering-and-optimization

 

加入MLPerf管理机构MLCommons  

Graphcore还于近期宣布,其已经加入新成立的MLPerf管理机构MLCommons,成为MLCommons的会员,并将于2021年开始参加MLPerf的性能测试。

 

IPU-M2000和IPU-POD64系统已发货

 

与此同时,Graphcore的最新解决方案IPU-M2000和IPU-POD64系统已经在全球范围内交付,一些早期发货的产品已经在数据中心安装并运行。

IPU-POD64是由16台IPU-M2000组成的一个解决方案,实现了x86和IPU计算的解耦。此外,这还是目前市面上唯一可纵向和横向扩展的AI计算系统产品。

 

纵向扩展是指IPU-POD64可以实现从一台IPU-M2000到一个IPU-POD16(4台IPU-M2000),再到一个IPU-POD64(16台IPU-M2000)进行软件透明扩展。

 

IPU-POD64还可以很好地进行横向扩展,多个IPU-POD64最多可以支持64000个IPU组成的AI计算集群。通过横向、纵向两个维度,IPU-POD64可以大幅提升性能。

 

芯片创新,要引领潮流!  

作为芯片领域的“专家”,Graphcore非常重视新技术和新方向。光芯片,无疑是未来芯片最热的方向之一。谈到光芯片的前景,Graphcore认为,业内都在研究光子计算、量子计算等各种各样的研究方向,但是最后哪个方向能够真正走通,并走向商业化,其实并不好预估。但今天,光芯片的本质是“光硅”,即使“光”算得很快,但和系统、网络和其他计算机部件通信时,最后还是要转化成硅,光芯片是一个比较前沿的探索方向,但距离产业落地还是要一段时间的。

 

上述对于光芯片前景的预判,只是Graphcore在芯片领域做出的专业预测之一。“引领潮流的人不会顺应潮流,因为他本身就是潮流”,这条准则放在芯片领域同样适用,技术在于创新,期待未来有更多像Graphcore IPU这样能够打开新局面的产品能够落地,从底层硬件上,夯实智能化时代的根基!

 

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。