美国首台E级超算，赢在哪里？输在哪里？

菲龙网编辑部7 发表于 2022-6-21 11:36

美国首台E级超算，赢在哪里？输在哪里？

【文/观察者网专栏作者余鹏鲲】
当地时间5月30日，世界超算两大学术会议之一的ISC在德国汉堡举行，并发布了超级计算机Top500 榜单。登顶本次榜单的是美国橡树岭国家实验室研制的Frontier超级计算机，在LINPACK基准测试中，这台超级计算机的稳定运行速度可高达1.1EPlop/s（百亿亿每秒），理论速度高达1.68EPlop/s。
Frontier的成绩在榜单中是鹤立鸡群的存在，以稳定速度计，比排名第二的日本超级计算机“富岳”整整快了2.49倍，理论速度更是快了3.14倍。事实上Frontier的稳定速度，相当于排名2-8名超算的性能之和。在性能有成倍提升的情况下，Frontier的功耗仅相当于“富岳”的71%。也就是说，Frontier不仅性能强大，还拥有非常出色的功耗表现。

超算Top500 榜单1-6名
相比日本、芬兰和美国在超算上的你追我赶，近年来的中国显得非常沉寂，曾经排名世界第一的超算神威·太湖之光不仅在排名上滑落到第6，性能也只有不到0.1EPlop/s，与Frontier相比存在数量级的差异。
第一名超过第二名近2.5倍，第二名又比第三名快了将近3倍，面对这一现象，有人提出中国的超算是“（堆）硬件上的领先”，并引用清华大学科学史系博士后司宏伟文章，认为：“中国超级计算机的自主创新之路还任重而道远，面临着原创能力不足、人才匮乏及应用较少等问题”。
2021年底，司宏伟在发表的一篇文章中指出：若以国内目前传统技术方法构建一台E级的超级计算机，年能耗将会超过三峡水库发电量的1/3。
美国加州大学计算机工程博士刘少山认为：国内超算软件人才与美国相比还有很大差距，目前绝大多数超算底层软件库都是由美国的科研人员所研发。中国还很缺能够利用超算解决应用问题的高素质人才。国家超级计算无锡中心并行优化部主管刘钊在接受媒体采访时谈到，近年来在互联网公司的冲击之下，无锡（超算）中心的人手一直吃紧，特别是应用领域人才偏少，大约只占研发团队人员的三分之一。
如果只看这些材料，难免给人一种感觉，中国过去在超算领域长期领先只是偶然的，中美超算的潜在实力相差很远，事实果真如此么？
中美超算水平依然接近
根据中国科学院院士钱德沛2019年所做的一个报告，1993-2012年，超级计算机的性能大约每10年提高1000倍，从2013年起，上升速率变缓，降低为每10年100倍左右。但无论如何，超级计算机性能增长的速度远高于民用PC的性能增长，这说明超级计算机性能提高固然要靠单芯片性能的增长，也非常依赖系统规模的扩大。

超算性能增长曲线
超级计算机的性能野蛮生长了20年，至今为止，美国研制Frontier的花费也不过区区6亿美元，这说明超算系统规模的扩大并不是简单的堆硬件。过去超级计算机竞争的关键，就在于研发设计芯片间计算任务调度、分发、通信的软硬件，使得数量众多的芯片能够以较高的效率同时进行计算。

Frontier超算
一些文章虽然正确科普了通信技术对超算的重要性，但却陷入到对美国超算通信技术的盲目崇拜中去，把Frontier采用的HPE Cray Slingshot-11说成是“最先进的”，而没能客观比较中美超算通信难度。2016年，中国正式公布了神威·太湖之光超算，该超算共由40960块“申威26010”处理器构成，这些处理器分属20480个节点。
而美国的Frontier只有9408个节点，每个节点配备一个AMD Epyc 7A53 CPU和四个AMD Instinct MI250X加速卡。显然，Frontier的节点间通信的压力要小得多，也更容易设计。因为Frontier拿了第一，所以就认为美国在超算调度、分发、通信等等领域超过中国，这显然是不客观的。

Frontier的基本情况
有人可能会觉得只比较节点太过于武断，其实早在2016年中科曙光就正式启动了E级超算的研制项目，2018年前后同时在研的有曙光、神威、天河三种技术路线的E级超算，其中进度最快的“天河三号”原型机，2018年7月就通过了验收，标志着中国掌握了E级超算相关技术。
但中国超算继续领跑榜单的情况并未出现，这主要是由于美国对中国超算发展始终持不正常的阴暗想法，蛮横无理地采用包括单边制裁在内的手段遏制中国超算发展，导致中国从2020年开始不愿意提供中国超算的基准测试数据，并加强了保密措施。正如上海交通大学网络信息中心副主任、高性能计算专家林新华所说：“进入TOP500是为了促进国际合作，但结果却适得其反”。
那么中国是否具有E级超算呢？今年5月，美国田纳西大学相关领域的教授杰克·唐加拉认为：“中国是有东西的”，“只是没有官方的说法”。
无独有偶，去年刊登在《THE NEXT PLATFORM》的一篇文章援引“匿名权威人士”的话指出，中国神威·太湖之光的后续型号海洋之光，2021年3月运行基准测试时，稳定运行速度达到了1.05EPlop/s，其时的功率为35MW。
如果该文数据正确，那么有人说中国的E级超算功耗“将超过三峡发电量的1/3”的说法不攻自破。
国外媒体的猜测并非空穴来风，今年4月中国科学技术大学、国家海洋科学与技术试点实验室（青岛）、北京大学数学科学学院、无锡国家超级计算中心和中国海洋大学组成的联合团队，公布了一篇超级计算机模拟复杂量子多体的文章，文章中介绍了高性能计算环境时报告了sw26010pro的架构。该CPU作为sw26010改进型，拥有6个计算组，每个计算群有1个管理核心和64个计算核心。而组成太湖之光的sw26010，只有4个计算组，说明sw26010pro单片至少有50%的性能提升，极可能属于新超算，文章也称之为“新一代神威超级计算机”。

sw26010pro的架构
同样基于“新一代神威超级计算机”的还有第一单位为中国科学技术大学的一篇论文，该研究首次实现了长达7天的全球3公里空间分辨率大气物理-化学全耦合数值模拟试验。文中提到，数值模拟试验的规模最大曾经达到过近4000万处理器核，并且效率仍然达到76.2%。

相关论文
从论文中透露的信息，我们不难分析出两点内容。一是“新一代神威超级计算机”的规模很大，远超过神威·太湖之光（最大1000多万个处理器核）。二是“新一代神威超级计算机”效率很高，须知几乎没有超算程序的运行效率高于基准测试。美国的Frontier运行基准测试时，效率也不过能达到理论的65%，还有很大的进步空间。
更为直接的证据来自于2021年一项利用神威·海洋之光实时模拟量子电路的研究。该研究披露，海洋之光的节点高达惊人的107520个！模拟程序的速度可以达到1.1EPlop/s（单精度）或者4.4EPlop/s（F16混合精度）。
由于模拟使用的海洋之光还是片上异构式的超算，1.1EPlop/s（单精度）换算成超算常用的双精度至少有0.55EPlop/s。如果海洋之光没有对混合精度进行过优化，那么4.4EPlop/s（F16混合精度）换算成双精度就有1.1EPlop/s，这一成绩已经与Frontier运行基准测试的成绩差不多了。何况模拟程序的效率，几乎肯定达不到基准测试，海洋之光的实际速度还可能更高。

论文中关于计算速度的表格
因此我们可以放心大胆地认为：中国即使没有E级超算，也非常接近，中美超算技术并未重新拉开差距，而这些成绩还是在西方国家严格制裁的情况下取得的。
同时，这么多的论文和研究，也说明中国超算的应用水平已经达到了相当的水平。固然还有提高的空间，却不像一些人所说的那样一团黑。
美优势在于民用芯片
中美超算水平接近，是否意味着美国超算就不值得借鉴呢？显然不能这么说，美国这次超算重新夺魁，一个突出的优势就在于美国的民用芯片水平很高，并且带动了像超算这样的专用领域。
在神威·太湖之光以前，超算的竞争主要是超算系统中调度、分发、通信相关的软硬件的竞争。每一个节点要么纯CPU，要么是CPU+加速卡的异构计算方案，为了提高性价比和计算速度，往往还会购买英特尔和英伟达两家美国厂商的成熟产品，早期的天河系列超算就是典型代表。

天河二号是典型的异构计算
CPU+加速卡方案的优点是将管理（通用计算）和专业计算分开，提高了单节点的计算速度，但缺点是计算的数据会反复在CPU和加速卡之间传输，造成大量的性能浪费。而太湖之光使用的sw26010将两个部分的电路，集成到了一个芯片上（片上异构），这样既避免了纯CPU不擅长专业计算的劣势，又避免了加速卡不能和CPU共享内存的问题。
值得一提的是，2010年前后开始，纯CPU的方案劣势太大，越来越少地被采用。而无论是异构计算，还是片上异构，编程都不容易，且掌握起来难度都差不多。不存在中国超算芯片因为不用于商业市场，所以程序兼容性不好的问题。
正是由于这个创新，sw26010在设计团队规模很小，制程落后整整两代的情况，实现了和英特尔类似产品相似的功耗和性能。太湖之光的成功，启迪了后来日本的“富岳”超算。“富岳”同样抛弃了美国成熟的计算方案，购买ARMv8.2-A指令集开发管理核心，并自研专业计算模块，推出了富士通版的片上异构芯片A64FX。
A64FX的架构和sw26010即使不能说一模一样，也可算得上极为相似，同样是四个计算组，就连性能也差距不大。A64FX的理论性能是2.7TFlop/s，sw26010的为3.06TFlop/s。仅就性能而言，2018年推出且工艺更先进的A64FX尚不及2015年的sw26010，足以说明神威超算开发团队在立项sw26010时独具慧眼。

A64FX架构介绍
从理论上讲，片上异构具有突出的功耗比优势，因为调度和传输浪费的计算性能较少。太湖之光的实测性能与理论性能之比高达74%，日本的“富岳”更是达到82%，而美国的Frontier由于是传统的CPU+加速卡架构，只有65%，但是Frontier功耗远低于“富岳”，很可能也明显低于中国的E级超算。这意味着芯片间调度过程中浪费的性能，被每个芯片优异的功耗表现省了回来。
由于美国的半导体封锁，中国超算芯片不可能运用先进的制程，单芯片功耗比表现不佳情有可原。但日本的富士通A64FX使用的制程与美国的几乎一样，性能表现上出现这么大的差距，只能是两国民用半导体产业内功相差甚远。
Frontier是由AMD主导打造的，AMD曾经在与英特尔的商业竞争中受挫，从而差点一蹶不振。2015年，AMD携带十年磨一剑的Zen架构再踏征程，在CPU方面与英特尔展开了惨烈的商业竞争。AMD还做GPU，与英伟达也杀得难解难分。伴随着竞争而来的是，CPU、GPU的功耗比陡峭地下降，性能迅猛地上升。
Frontier使用的是AMD Epyc 7A53 CPU，为了充分降低功耗，这款64核的CPU主频被限制在了2.0Ghz。虽然AMD不愿透露更多信息，外界普遍猜测这款号称为超算定制的CPU改进是有限的。AMD用于数据中心的芯片本来就有很多64核的芯片，其中有很多的基础频率就是2.0Ghz，将其用于超算，主要是限制主频+芯片特挑。除此之外，AMD的64核芯片早已形成了多条产品线，既有压低功耗的，也有像Epyc 7H12这样的高功耗高性能的芯片。

AMD部分64核数据中心服务器芯片
由于AMD的64核系列能够在商业市场赚大钱，进而投入更多成本进行优化，因此Epyc 7A53虽然投入精力不多，也能在超算市场打出一片天来。
Frontier核心计算部分主要依靠AMD Instinct MI250X加速卡，采用的是CDNA2架构，熟悉游戏显卡的人不难想到近年来AMD游戏显卡的架构是RDNA2，两者之间是存在关系的。MI250X加速卡可视为一张专门为计算打造的显卡，众所周知美国的CPU设计技术领先世界，但很少有人知道美国的GPU设计技术更是和其他国家拉开了代差。其他国家独立自主研发的顶尖GPU，绝对性能与美国英伟达、AMD等巨头之间存在2-3个数量级的差异。
Frontier之所以能在节点数量远少于海洋之光和“富岳”的情况下，实现E级超算，关键就在于MI250X加速卡突出的性能和功耗比。一张MI250X能提供的理论双精度性能竟然有47.9TFLOP/s，是富士通A64FX的17倍，要是双精度运算全是超算应用中较多的矩阵运算，MI250X的理论性能还能进一步提高到95.7TFLOP/s。

MI250X的基本情况
MI250X加速卡这么强，不光是AMD本身的设计，每块加速卡上还集成了128GB HBM2e高带宽内存。现在的超算主要还是冯·诺依曼结构占主导，内存速度将直接影响计算速度，这种内存比普通的要快得多，目前却只有少数企业能够生产。
由于美国有着极为发达的民用芯片产业，因此Frontier作为美国首台E级超算，基本没在超算理论上费多少心，主要就是依靠近年来民用CPU、GPU功耗急剧下降，GPGPU（计算显示核心）蓬勃生长的浪潮，极大地提高了每个节点的性能而实现的。
面对此情此景，我们要做的，不是否定过去筚路蓝缕艰苦奋斗的国产超算成就，而要鼓励民用计算机产业努力升级，直面竞争。超算是计算机产业的皇冠，超算和民用芯片的关系有越来越大的趋势，只有我们民用计算芯片的宝石足够大、足够多，中国超算的皇冠才能更加璀璨。
本文系观察者网独家稿件，文章内容纯属作者个人观点，不代表平台观点，未经授权，不得转载，否则将追究法律责任。关注观察者网微信guanchacn，每日阅读趣味文章。

页: [1]

菲龙网's Archiver

美国首台E级超算，赢在哪里？输在哪里？