AMD将成全球首个E级超算供应商？美国Frontier超算全AMD架构，超千万GPU核心

菲龙网编辑部7 发表于 2022-4-5 08:20

AMD将成全球首个E级超算供应商？美国Frontier超算全AMD架构，超千万GPU核心

新智元报道
编辑：LRS
【新智元导读】最近几年E级超算的呼声越来越高，但始终还没有哪个国家推出百亿亿次超算。美国Frontier超算近期开启公开测试，采用全AMD的架构，含超千万GPU核心，美国能全球首发E级超算吗？
超算排行榜，明年可能要迎来大变化！
美国橡树岭领先计算设施(OLCF)项目最近发布一条新消息，计算设施的测试平台系统已经成功启动，并有代码正在Crusher上运行测试。
2019年时，美国能源部宣布投资6亿美元打造一台名为Frontier的超级计算机，以AMD处理器+AMD加速卡的架构进行搭建，预期计算能力将是Summit系统的7倍，并计划在2021年上线。

Crusher就是Frontier的一部分，可以看作是Frontier超算的「缩小版本」，科学家目前可以通过Crusher访问Frontier。
Crusher拥有和Frontier完全相同的计算架构，但只包含1.5个机柜，总计128+64=192个计算节点，总面积不过44平方英尺（约4平米）。和2013年上线的美国泰坦超算相比，占地面积仅为泰坦的百分之一，性能却更强，具体算力官方没有透露。

目前正在运行的4个科学项目已经成功通过Crusher在Frontier架构上完成优化，包括癌症分布学习环境（CANDLE）项目、并行架构上计算流体动力学（Cholla）项目、局部自洽多重散射（LSMS）项目、橡树岭的核电耦合集群（NuCCOR）项目。
由于Frontier进度不及预期，2021年底才开展安装工作，所以Frontier系统的实际上线时间可能要等到2023年1月1号。
根据官方文档来看，每个Crusher计算节点都配备了AMD专门优化过的第三代EPYC 7A53 64核心处理器CPU，每个物理核心有2个硬件线程，可以访问512GB DDR4内存。

每个节点还包含4个AMD MI250X计算加速卡，每张MI250X加速卡内部集成两颗核心，可以看作是2个GPU，也就是每个节点都相当于是八卡。
MI250X加速卡号称在同类产品中拥有世界上最快的HPC性能、AI性能，使用新的CDNA2计算架构，搭配升级的6nm FinFET工艺，580亿个晶体管，并使用2.5D双芯整合封装，14080个流处理器核心，80个二代矩阵核心，8192-bit 128GB HBM2e内存，峰值560W。

计算下来，Crusher总共192颗处理器(12288核心)、768块加速卡(10813440核心)，也就是超过1082万核心，还有32TB内存、250PB硬盘。
玩「扫雷」的话，应该是不会卡了。
新王登基还是群雄争霸

百亿亿次超级计算机一直是兵家必争之地，也就是计算机每秒运算次数需要达到1后面18个0，达到这个量级就称为1 exaflops，所以百亿亿次超级计算机也称为E级超算。
E级超算也被视为人类超算发展的一个里程碑，有望在解决全球能源危机、气候变化、环境污染等重大难题上发挥巨大作用。
2018年，美国橡树岭国家实验室（ORNL）推出的Summit，理论峰值可以达到200 petaflops，2020年的日本富岳超算理论峰值达到537 petaflops.

富岳就这样霸榜了两年，万众期待的E级超算还没有出来屠榜。
超算榜单的计算是使用64位浮点为基准，主要是因为解决物理模拟所需的三维偏微分方程需要这个精度。现在超级计算机的主要用途已经转为训练深度神经网络了，只需要16位的浮点精度即可，所以不严格的讲，富岳已经是E级超算了，只不过榜单上没有承认。
比如特斯拉2021年公布的超级计算机Dojo，它的算力就号称达到1.8Eflops，不过它是基于FP16的低精度，而日本富岳如果使用FP16测试，速度可以达到2Eflops以上。
并且一些专用的超算，比如有一个模拟蛋白质折叠的分布式计算的项目，因为所有的计算都可以分开计算，也不涉及多个计算机之间的计算通信等等问题，只需要堆电脑就能达到E级。2020年时项目官方在推特上发文表示，他们已经跨越E级。

但各个国家对超算的需求没有止步，各种科学仿真实验都需要更强大的超算，负责ORNL计算设施的Justin Whitt表示，Summit超算需求量大概相当于实际能力的4-5倍，所以组装新超算Frontier也被提上了日程。
Frontier完成后预期可以达到1.5 exaflops的峰值理论性能，也就是比Summit快7倍以上。更强的是，Frontier的能耗预计为29000千瓦，耗电量增长不到三倍，和当前富岳的能耗差不多。

除了全AMD架构的Frontier，美国还有其他方案，如Intel处理器+Intel加速卡的Aurora（极光）和AMD处理器＋NVIDIA加速卡的Polaris（北极星）
Aurora超算系统是美国能源部阿贡国家实验室的超级计算机项目，旨在处理高性能计算、AI/ML和大数据分析工作负载，基于Sapphire Rapids和Ponte Vecchio构建，预计可以实现2 exaflops的峰值计算性能。

不过英特尔由于研发问题，7nm Ponte Vecchio GPU 芯片延期交付而不得不推迟一年，预计今年或明年才能正式上线。
所以阿贡国家实验室暂时选择购买另一台超算Polaris，由Hewlett Packard Enterprise负责建造，预计今年前半年即可交付给早期用户，也是阿贡国家实验室最大的基于GPU的超算。

英伟达表示，Polaris拥有560个计算节点，每个节点有4个 Nvidia A100 GPU，可以实现约44petaflops的峰值双精度性能，理论 AI 性能可以达到1.4 exaflops，所以Polaris并非是一台严格意义上的E级超算。
闷声发大财
早在去年6月超算榜单公布之前，就有消息传出国内已经部署了两套新一代的超级计算机。
一位不愿透露姓名的权威人士表示，去年3月，在申威Sunway Oceanlite架构上跑过一次LINPACK，也就是目前超算排行榜排名第4的神威太湖之光的下一代产品，其峰值计算性能达到了1.3 exaflops，持续计算能力1.05 exaflops，功率约为35000千瓦。
LINPACK是一个可以用来衡量超级计算机性能的测试，LINPACK的编写人之一Jack Dongarra也获得了2021年ACM图灵奖。

其实早在2018年，由江南计算所、国防科大和中科曙光公司根据不同技术路线研制的三台E级原型系统已经完成并分别安装在济南、天津和深圳国家超级计算中心。
三台E级原型机，即神威E级、曙光E级及天河三号性能都进入了中国高性能计算机TOP100的前十位。

在原型机基础上升级的E级超算系统原计划在2020年交付，目前还没有任何公开的信息，很可能已经推迟。
2021年12月，为充分发挥新一代国产E级超算系统强大计算能力，研发适配国产超级计算系统的关键技术和应用软件，国家超级计算天津中心和国防科技大学，联合数十家合作团队，共同发布「面向新一代国产E级超级计算系统的十大应用挑战」。
种种消息都在暗示国产E级超算即将面世。

虽然各国都在争夺「首发」E级超算，但超算的研发并没有想象中那么简单。
比如能耗问题，E级计算机除了运算速度快之外，对能耗也有严格要求。如果仅是不断增加处理器，那么体积和功耗会不断增加，这并不是超算可持续的出路，目前业内公认的E级超算能耗标准是在40MW以下达到每秒百亿亿次。
前面提到的Aurora超算设计功率就是40MW，而欧洲更是致力于将其首套E级超算能耗控制在10MW内。
还有近两年芯片行业短缺、产能不足也会影响超算的组装和研发进展。
Hyperion Research公司按照系统验收的时间估算，2021至2026年期间，全球将建成28～38台E级或接近E级的超级计算机，总价值约在100～150亿美元。
所以今明两年极有可能是E级超算大爆发的元年，届时人类的计算能力将再上一个新台阶！
参考资料：
https://news.mydrivers.com/1/823/823148.htm
https://www.cnbeta.com/articles/science/1196065.htm
https://new.qq.com/rain/a/20220315A0CXRT00

页: [1]

菲龙网's Archiver

AMD将成全球首个E级超算供应商？美国Frontier超算全AMD架构，超千万GPU核心