论述arm体系对risc的继承(arm x86性能比较)

2019年11月12日，惠普的HPE事业部，也就是Cray宣布将与日本富士通合作，推出基于富士通的A64FX超级计算处理器。现为美国洛斯阿拉莫斯国立研究所(Los Alamos National Laboratory )、美国橡树岭国立研究所) Oak Ridge National Laboratory )、日本理化研究所) RIKEN )计算科学中心、纽约州立大学石溪分校富士通的A64FX处理器于2018年8月正式发布，2019年4月正式量产，2019年11月进入商用市场。这是世界上首款采用ARMv-8A SVE扩展指令集的芯片。并且，在2019年11月19日的世界超级计算机大会上，NVIDIA(NVIDIA )也发表了构建GPU加速ARM服务器的参考设计。目前，NVIDIA与ARM、致命芹、富士通美满电子、HPE及其旗下的Cray等生态合作伙伴进行了合作，许多高性能计算软件公司使用NVIDIA CUDA-X库为ARM生态提供GPU

目前，全球基于ARM的超级计算芯片制造商主要有Marvell(Cavium )、富士通和Ampere，其中cavium于2017年11月被Marvel以约61亿美元的价格收购。 Cavium的核心产品是ThunderX2处理器，最有名的APP应用是Cray为英国气象局推出的Isambard系统。 Isambard是一台拥有10000个核心的Cray XC50超级计算机，在世界气象局的超级计算系统中排名第二(中国气象局的“派-曙光”世界第三)法国原子能委员会(CEA )是ATOS BullSEQQ，由于该系统采用ThunderX2ARM处理器的成本太高，法国已经22年没有进行过核试验，所以改用了模拟的形式。该项目是欧洲委员会资助的Mont-Blanc3项目的一部分，评估基于ARM的集群对exascale高性能计算(HPC )的适用性，是exascale系统所需的软件生态系统同样为了模拟核试验，美国桑迪亚国家实验室(Sandia National Laboratories )采用了惠普提供的ARM超级计算系统，即Astra。 Astra由2592台服务器组成，每台服务器包含2个ThunderX2处理器。峰值性能达到2.3PFlops，是超算500强排行榜中唯一的ARM系统，2019年排名第156位。西班牙国家超计算中心也采用基于ThunderX2处理器的系统。

另一个是富士通。富士通在超级计算领域拥有相当多的gddcb。 2011年，日本理化所和富土通合作超算“京”。 Linpack测试的最大计算性能达到了10.51PFlops，也就是每秒1.051亿次的浮点计算。这是人类首次跨越1亿次计算大关，是当年最快的超算，但2011年以后的排名急速下降，2016年成为世界首位的2019年2月，日本理化所宣布将于2019年8月取消“京”，并将其撤除。 “京”的继承人是“Post-K”，指令集从SPARC指令集转换为ARM指令集。为什么要改为ARM指令集？答案是采用SPARC后，使用哪个操作系统成了现实的问题。虽然SPARC有采用“Solaris”系统的先例，但将商用Solaris作为大型并行超级计算机系统会增加处理负担。富士通决定将曾经应用于PC集群型超级计算机的Linux系统移植到SPARC上。但是，只有富士通使用SPARC版Linux，没有提供商用软件的供应商，也没有支持该平台的“合作伙伴”。此外，SPARC版Linux也不完全支持Linux原本拥有的所有软件库。大多数软件库在重新编译后仍可以正常工作，但也有例外。一句话，生态联系太差了。除了日本的内部使用外，海外的客户只有一个，就是台湾的“中央气象局”。 2012年，台湾“中央气象局”以14亿日元(约1亿元人民币)购买了日本超级计算机“京”的商用模型，与日本共同进行了地震和海啸的模拟。

从2013年开始，富士通决定放弃SPARC，不选择x86的理由很简单。如果采用英特尔的x86体系结构，富士通自己无法设计自己的处理器，无法与其他制造商区别开来。 ARM服务器是为了降低功耗吗？答案是否定的。决定功耗性能的不是指令集，而是CPU微体系结构，即从软件的角度看，隐形流水线、寄存器配置等CPU内部设计的贡献要大得多，指令集与微体系结构的关系并不密切当然，ARM指令集的功耗比x86稍低。如果是RISC型等特性相似的指令集，则除解析指令的解码器电路以外的结构基本相同，因此转移到ARM指令集并不困难。

雷决定将富士通的A64FX用于CS500的“storm”产品线。 Cray将继续使用Marvell的ThunderX2和ThunderX3，主要用于“CPU GPU”系统或运算量较少的纯CPU系统

上，而A64FX将用在需要超大规模数学运算的超算系统上。ThunderX2和ThunderX3主打高性价比市场，A64FX主打高性能市场。据说原本使用ThunderX2的美国桑迪亚国家实验室也用A64FX取代ThunderX2，而不是等待ThunderX3。布里斯托大学与英国气象局的二代Isambard系统也将使用A64FX。

富士通A64FX的核心技术之一是与ARM联合开发的可伸缩矢量扩展（Scalable vector Extensions，SVE）指令集ARM的首个64位架构核心Cortex-A57曾一度瞄准服务器市场，但因为各方面的原因无功而返。随后，ARM将重心转回到移动领域，最新ARM处理器的核心Cortex-A73就只字不提服务器应用。2016年8月，ARM又宣布ARMv8-A增加了SVE指令集，专为高性能计算、数据中心而生。

全球首次使用SVE的超算芯片是富士通的A64FX。SVE将作为ARMv8-A指令集的可选扩展，支持SIMD最低128bt、最高2048bit。SVE对应32个寄存器，较低的128bits与ARMv8-ASIMD&FP共用寄存器。预测寄存器有16个，带宽为SVE寄存器的1/8。A64FX不仅支持128、256、512bit三种单指令多数据流（Single Instruction Multiple Data，SIMD），还支持双精度、单精度、半精度、INT8和INT16，同时支持上一代SPARC64。

SVE与英特尔的AVX512非常相似，也是SIMD用的指令集。但不同的是，目前英特尔AVX最高到512位，英特尔顶级的服务器芯片和9代上消费级CPU都支持AVX512。不过在理论上，每以增加1倍的向量数据宽度，将带来2倍的晶体管数量的增加。目前，英特尔的AVX指令集只实现在片上每个核里，作为核中的一个功能部件，若扩展到1024位，将增加4倍的晶体管数量。因此，AVX1024意味着成本极高，SVE也是如此，因此富士通选择了512位。

SVE的另一特点是无须知道矢量的长度（Vector Length Agnostic，VLA），系统可以自动适应任何带宽的矢量，同时也保护了二进制，无须再进行检查。SVE还可以转换循环/中断语法（do- while loops/break syntax）使之适合SIMD。因为在通常情况下，循环/中断受到失效检测（fault detected）介入后就会退出循环。SVE采用首次失效负载（first fault load）指令集和首次失效寄存器（First Fault Register，FFR）解决了这个问题，这个寄存器在16个预测寄存器之中，一旦检测到失效，FFR寄存器就会禁止内存对后续元素的访问，从而避免循环退出。SVE还有搜集/发散（gather/scatter）指令，应对非连续的数据系统。在硬件方面，A64FX这种高性能处理器采用了HBM2内存，使用了台积电的 CoWes（Chip on Wafer on Substrate）封装工艺和7纳米制造工艺。

A64FX处理器内部构造中，CPU与HBM2之间通过Mcro-bump连接，线宽仅为55微米，比传统的PCB板级线宽密度高20倍。A64FX包含4片HBM2，每片HBM2包含8层堆叠，即8个独立的128bits通道带宽，总带宽达1024GB/s，是全球AI芯片中最高的存储带宽，而排名第二的英伟达Tesla V100存储带宽为900GB/s。

A64FX内部有48个运算内核和4个辅助内核。为了提高并行计算效率，减少因为操作系统造成的时基误差（jitter）累积造成的延迟，富士通特别加入了4个辅助核。在存储方面设置了核心存储组（Core Memory Group，CMG）。CMG分为4组，每组包含12个计算核、1个辅助核、1个L2缓存和1个存储控制器。系统软件可以像非统一内存访问架构（Non Uniform Memory Access Architec ture，NUMA）那样处理CMG。A64FX包含87.86亿个晶体管。

A64FX单精度浮点运算可达6.7854Tflops，大约是英特尔至强铂金8180处理器（28核）浮点运算（3.57Tflops）的两倍。“天河二号A”用的加速卡Matrix2000（128核）是4.916Tflops，此性能是在2.2GHz频率下取得的，8180处理器的默认主频是2.5GHz。A64FX也可以运行在1.8GHz或2.0GHz上，此时只需要风冷即可，而2.2GHz则需要水冷。

台积电和ARM曾经推出采用小芯片（chiplet）设计的8核ARM Cortex-A72设计，整个芯片的面积只有27.88平方毫米（4.4×6.2），运行频率高达4GHz（风冷）。ARM芯片一般运行频率都不超过2.2GHz，而小芯片设计突破了这个上限，大大提升了ARM芯片的性能。这样，未来ARM服务器的发展空间就有望得到大发展，ARM就可以不仅主打低功耗，也主打高性能。