acm-header
登录

ACM通信

新闻

Fugaku领先


理研计算科学中心的Fugaku

日本神户理研计算科学中心的Fugaku超级计算机。

信贷:在上面

日本的以手臂为基础的Fugaku超级计算机系统被公认为世界上最强大的超级计算机。2020年6月,该系统在全球500个最强大的商用计算机系统中获得了第一名,因为它在大规模科学计算的长期指标上的表现。尽管现代超级计算任务通常强调不同的能力,Fugaku在其他方面也优于其他指标。

“在所有的标准上都是惊人的。这个架构赢得了很大的时间,”瑞士联邦理工学院(ETH)苏黎世的Torsten Hoefler说。“这是一大步。”Hoefler与苏黎世联邦理工学院的一个团队分享了2019年ACM戈登·贝尔奖,以模拟纳米级晶体管中的热和量子电子流,部分是在美国能源部位于田纳西州的橡树岭国家实验室(ORNL)的Summit系统上进行的。

Fugaku在Top500的高性能Linpack (HPL)基准上的性能是令人印象深刻的0.4 exaflop/s (1018每秒浮点运算),在双精度(64位)算术上比Summit高出2.8倍。对于更快、更低精度的操作,Fugaku系统已经超过了每秒1亿次浮点运算。

uf1.jpg
数字日本神户理研计算科学中心的Fugaku超级计算机,目前是世界上最快的超级计算机。

然而,在接受Top500奖时,日本政府资助的神户理研计算科学中心(R-CCS)主任Satoshi Matsuoka强调,该设计是与富士通密切合作完成的,其动机是在现实应用中的表现。“我们的目的从来不是制造一台只超越基准的机器,”松冈说,他在2011年与一组同事分享了ACM戈登·贝尔奖。

世界500强的先驱,来自ORNL和田纳西大学诺克斯维尔分校的Jack Dongarra说,美国的三个新系统,可能还有中国的其他系统,有望在明年在64位运算上达到每秒exaflop的性能。即使它的霸权是短暂的,Fugaku架构包括创新,尤其是向量算法,它可以简化编程,并为设计高性能计算机提供了另一种范例。

回到顶部

力争上游

Top500榜单包括来自世界各地的500个强大的系统,但少数靠近顶部的系统获得了最多的关注。这些系统往往是由美国国家实验室和日本政府支持的理研研究所等主要设施的国家资源资助的。在这一点上,以及在成本上,领先的超级计算机与哈勃太空望远镜等科学仪器相似。唐加拉说:“据报道,福阁机器的研发和建造成本为10亿美元。”“他们正在推动这项技术,而你要为此付出代价。”Fugaku由158,976个节点(超过700万个CPU核)组成,分布在432个机架中。包括配套基础设施在内,它可发电约30兆瓦,足以为约2万户美国家庭提供电力。

与只做天文学的哈勃不同,这些系统运行模拟,照亮各种各样的科学挑战。Hoefler说:“前10名机器是为了解决其他机器无法解决的问题而设计的,”包括气候变化、大脑研究和最近的COVID-19危机等“社会的重大挑战问题”。它们的通用设计使它们的效率略低于专门的机器,但确保了广泛的资金支持。它们的旗舰地位也排除了专门的芯片,比如为机器学习开发的芯片。Hoefler说:“我认为人们在建造一个价值2亿美元的基于这些芯片的机器之前,会三思而后行。”特别是因为用于尖端计算的算法继续快速发展。

Fugaku基于富士通与ARM合作开发的A64FX处理器。预计它也会应用在其他高性能计算机上,包括克雷开发的一个系统和富士通销售的其他系统。Hoefler说:“Top500中的系统所开创的架构将用于工业领域,以解决实际的工程问题。”

不过,让Fugaku使用专用芯片与最近的顶级超级计算机架构不同,后者利用为要求较低的应用设计的高容量芯片。这种方法减少了许多设计和开发成本,需要与先进的半导体技术保持同步。不过,这种现成的方法也有其自身的风险。在2020年夏天,英特尔宣布其最新芯片的制造问题,这可能会导致美国的百亿亿次超级计算机延迟生产。

每个A64FX芯片采用台积电的7nm FinFET工艺制造,包含近900亿个晶体管,采用48个Arm 8.2A cpu,其精简指令集计算(RISC)设计与Top500中的大多数处理器形成鲜明对比。唐加拉说,全球500强计算机中94%使用英特尔处理器,为程序员提供复杂指令集计算(CISC),目前只有3台使用ARM处理器。然而,Summit使用IBM的Power9处理器,它也具有RISC体系结构。

台积电的“片上片上基板”(CoWoS)工艺用于在处理器芯片上堆叠高带宽内存(HBM2)。“我们的研究表明,带宽对于维持应用程序的加速非常重要,”Matsuoka强调。该芯片还提供了豆腐互联系统的升级版接口,豆腐互联系统具有六维环面拓扑结构,该系统此前由富士通开发。

回到顶部

矢量建筑的复仇

从架构的角度来看,最引人注目的选择是Fugaku所没有的:图形处理器单元(gpu)。这些日益强大的计算密集型芯片通常由英伟达或AMD生产,经常被用作低成本的加速器,从高性能科学计算和机器学习的cpu中卸载密集的并行计算。


唐加拉表示,全球500强计算机中94%使用英特尔处理器;Fugaku是围绕富士通与ARM合作开发的A64FX处理器构建的。


相反,Fugaku的cpu集成了ARM称为标量向量扩展(SVE)的指令。与gpu相比,这种向量架构是“一种更优雅、更容易编译的架构,它试图利用相同级别的并行性,”加州大学伯克利分校的荣誉教授David Patterson说,他是2017年ACM A.M.的共同获奖者(与John Hennessy一起)图灵奖。“你可以向科学家解释它是如何工作的,它有一种优雅的特性,随着时间的推移,它可以扩展到非常强大的计算机上,而且很容易编译。”

帕特森指出:“Top500中最快的计算机已经很久没有安装向量处理器了。”“这是未来的发展趋势吗?”这将非常有趣。”

虽然定长向量运算已经在其他地方实现了,但SVE可以追溯到西摩·克雷(Seymour Cray)在早期超级计算机中最初设想的向量运算类型。Hoefler说:“这不是一个固定大小的向量,而是一个可变大小的向量,你可以向量化整个循环。”

传统上,gpu强制用户识别吞吐量敏感代码,并为这些操作显式指定细粒度并行度。“在福阁系统中,你不需要那样做,”Hoefler说。“《Fugaku》是第一个认真执行这些理念的游戏,至少在Cray的时代是这样。这样编程会更容易。我对此超级兴奋。”

CPU通常也比gpu需要更多的功率,但在A64FX中,“我们的功率效率几乎在gpu或最新种类的专用加速器的范围内,同时也是一款通用CPU,”Matsuoka说。“这是因为我们真正关注的是高性能计算。”

回到顶部

几十年的进步

自1993年以来,Top500一直在追踪超级计算机性能的指数增长,其基础是1979年Dongarra开发的Linpack基准。他说,在当时,浮点运算是昂贵的,所以64位矩阵乘法形成了基准测试的核心。今天,同样的标准仍然被用来评判Top500。

由于芯片加热和其他问题,单个处理器的时钟速度达到了天花板,因此并行计算变得尤为重要。然而,因为任何计算都有一些部分必须串行完成,所以并行增加更多处理器在加速方面的回报递减。

尽管如此,更多的并行处理器确实能让研究人员有效地解决更大的问题。“不是每个人都想更快地解决同一个问题,”帕特森说。Linpack真正做到了这一点,并允许人们解决任何他们想要的矩阵大小。计算机越大,矩阵越大。我不知道有多少人想要解决一个一边是1000万乘1000万密度矩阵的问题,但这就是他们正在解决的问题。”当Linpack被引入时,“这些大矩阵是人们在这些机器上运行的总工作量,”Hoefler同意道,但“遵循摩尔定律40年,人们今天在这些机器上可以解决的矩阵比任何人在实践中可以解决的矩阵要大得多。”

唐加拉承认:“虽然从历史的角度来看这很有趣,但它可能并不能真正反映我们在超级计算机上看到的所谓正常应用程序的性能。”他说,尤其是在密集的科学计算中,比如求解气候模型等复杂三维系统模拟中出现的偏微分方程,矩阵是稀疏的,这意味着它们只有少量的非零项,以可预测的模式排列。

为了评估这种稀疏矩阵操作,Top500团队还跟踪了HPCG(高性能共轭梯度)基准。此外,机器学习应用程序通常不需要完全64位的精度,所以Dongarra和他的同事们引入了一个较低精度的版本,称为hp - ai。尽管如此,在这两个基准测试中,Fugaku也是排名最高的,在HPL-AI上实现了1.4 exaflop/s。

尽管如此,Patterson担心“Linpack基准测试是否会导致架构创新,从而允许重要的算法,或者……我们只是在创造一招一用的小马。”他一直支持一种替代方案,称为MLPerf,它包括机器学习的训练和推理方面。它的特点是一套经常更新的任务,例如,在介绍该模型的研究论文发表的两年内,包括一个大规模语言模型。MLPerf还有一个“开放”类别,不指定实现,以鼓励算法创新。“基准挑战是,如何进行公平的挑战并鼓励创新?”帕特森指出。

尽管如此,Hoefler认为Top500的连续性为Fugaku这样的机器提供了重要的背景,并指出机器学习算法仍然严重依赖于与幂矩阵乘法相同的融合乘法运算。“HPL已经不像以前那么重要了,但我相信从历史的角度来看,它非常重要。”

*进一步的阅读

Top500:榜单www.top500.org

Fujitsu Fugaku系统报告,Jack Dongarra, 2020年6月,https://bit.ly/2EQS6Yt

MLPerf基准,https://mlperf.org/

回到顶部

作者

梦露不是一位科技作家,住在美国麻萨诸塞州波士顿。


©2021 acm 0001-0782/21/1

允许为个人或课堂使用部分或全部作品制作数字或硬拷贝,但不得为盈利或商业利益而复制或分发,且副本在首页上附有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有信用的文摘。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,都需要事先获得特定的许可和/或费用。请求发布的权限permissions@acm.org传真(212)869-0481。

数字图书馆是由计算机协会出版的。版权所有©2021 ACM, Inc.


没有找到条目

登录全面访问
忘记密码? »创建ACM Web帐号
文章内容:
Baidu
map