在过去的十年里,这个问题被反复地问过,而得到的回答通常是“是的,好吧,当然,很可能”。
各大云供应商都已推出了HPC云服务并稳步扩展它们。例如,AWS最近推出了基于AWS Graviton 2的C6gn实例,该实例可以提供高达100Gpbs的网络连接,同时提供比现代处理器高40%的价格性能。这是HPC应用程序的关键推动力,这些应用程序在历史上已经广泛并行以获取所需的性能。
福冈系统(Fugaku)的研究机构日前宣布,它将提供云服务。在这一点上,HPC与私有云的合作关系可能是一种创新的趋势。
与此同时,HPC用户的回应是有充分的理由将越来越复杂的工作负载(例如EDA和药物设计)移植到这些服务中。高校、研究机构甚至石油和天然气等传统的商业HPC用户都面临着越来越紧张的预算。迁移到云端使他们可以自由扩展(或缩减)容量。项目可以并行运行,而不是在队列中等待。而且它在Arm上的工作方式也很大:在云中运行的80核Altra(来自Ampere Computing的基于Arm的处理器)的基准测试显示,在各种应用程序上的时间减少了10-42%。时间、金钱和头痛都将减少。
云计算中的高性能计算机也有可能让组织获得更广泛的技术组合。我们正进入一个性能提升将通过处理器创新和系统设计而非摩尔定律实现的时代。如果你看看最新的500强名单,你会发现五种不同的处理器架构和四种不同的互连技术出现在前十项中。例如,Fugaku就是围绕着基于Arm的A64FX处理器和Fujitsu的Tofu Interconnect D构建的:其他组织已经在研究如何将这些技术融入自己的项目中。由于这些不同的技术在某些工作负载上显示出优势,组织可以将注意力转向最高效/有效的产品。
或许最重要的是,云计算中的HPC还将大大增加公司的数量,这些公司可以利用目前petascale范围内提供的更广泛的功能,而且将来可能会发展到exascale。大规模共享特定于工作负载的硬件的负担能力有可能帮助我们解决人类面临的重大任务。
考虑基因组学。DNA数据每七个月翻一番,可能会超过YouTube等其他大数据生成器的增长。它包含的信息将成为提高农作物产量和发明新疫苗的关键。但是,如果没有能够快速上下旋转的高性能系统,知识库和需要它的科学家基础之间将存在差距。
所以,这里有很多潜力。但为什么进展如此缓慢?为什么HPC比大多数其他市场更晚加入云计算派对?
一个原因是软件。由于许多应用程序仍然是用Fortran编写的,这反映了迁移到新环境的复杂性。另一个原因是环境:云系统为环境提供了不同于HPC用户熟悉的虚拟化、打包和控制平面。这里有一个明显的差距,那就是在乞求解决办法。总之,我们正在取得进展。工具和语言也紧随其后。
还有心理障碍。这里没有发明的屏障深入到高性能混凝土中,这是有原因的。几十年来,HPC社区率先提出了被超级用户所接受的想法。要扭转这种趋势,需要合作和沟通。这也意味着我们需要放弃对系统架构的控制。国家安全考虑HPC的一部分,从巨人和ENIAC的日子开始,将是另一个因素。
但是,最重要的也许是对遗漏的恐惧:向云计算的转变是否会切断可能导致根本性突破的调查渠道?HPC需要承担风险的长期研发,通常最好在国家实验室和其他独立组织内进行。这种研究不会因云中HPC的增长而被边缘化,但这是一个需要关注的问题。显然,当我们在RIKEN见证下,在这里看到更多的公私伙伴关系将是一个好消息。
总之,我们正在看到由商用HPC用户迁移到云的混合环境的趋势。学术界将紧随其后,而政府机构将在这两个阵营中牢牢站稳脚跟,但收养较慢。理想情况下,业务上的合作伙伴关系和健康的用户群将鼓励进一步的增长,并提供一条获取经济和技术利益的途径,而又不会失去推动HPC先进水平所需要的Manhattan Project的重量。
如果有的话,它将使未来五年变得相当有趣。