导语:华为超融合数据中心网络支撑科研完成算力飞跃,大大提升了作业效率。有了智能无损高性能计算网络的加持,北大学子能够更从容地面对Deadline,助力科研更上一层楼。
“赶实验工期,临时要紧急跑个任务,计算资源排队时间太长怎么办?”
“下周就是Deadline了,突然发现实验数据有问题,重新模拟运行要100多个小时,有没有更快的方法啊?”
“这个实验对我特别重要,马上要来不及了,师兄师姐能不能让我先跑一遍?”
曾经,让科研人最头疼的不只是分子运动、DNA构成和风洞实验,也不只是繁琐的模型制作和模拟实验,还有跟实验室的师兄师姐抢计算资源,漫长的排队和长时间的运行等待。
为了提升高性能计算的效率,降低科研成本,北京大学(以下简称“北大”)高性能计算校级公共平台组织了一次厂家“考核”,意在选出智能时代最优的高性能计算网络,华为智能无损高性能计算网络因计算结果最优拔得头筹。
成绩斐然的计算中心
1963年北大拥有第一台计算机时,就在全国高校中率先成立了计算中心。2001年学校汇集多个领域的专家成立了北大科学与工程计算中心,搭建了一个具有多学科交叉性质的研究平台,服务全校教学科研,取得良好效益。2018年高性能计算校级公共平台揭牌启用,“未名一号”、“未名教学一号”和“未名生科一号”三套集群陆续投入运行,公共平台的计算总核心数达31,732个,峰值计算能力为3.65pflops。平台为数学、力学、物理学、化学、生物学、地球科学等学科提供了高性能计算环境,可谓“上知天文,下知地理”。
众口能调,科研支撑
高性能计算平台是一所大学重要的科研支撑条件,用于提高科学研究水平、推动工程技术创新。截至2023年5月12日,北大高性能平台共有师生用户5070人,分布在全校96个院系单位。已知支撑科研课题超545项,总金额达31.36亿元,科研论文1400多篇,并支撑了2020年戈登贝尔奖的发布。该获奖项目通过机器学习将分子动力学模拟极限提升到1亿原子的惊人数量,被认为是当今计算科学领域中最令人兴奋的重大进展。
使用需求高涨,改造迫在眉睫
随着平台使用人数的增加,用户的作业量逐渐超过了平台能力,网络基础设施的流量吞吐量和复杂性都大大增加。以“未名生科一号”为例,节点的占用率长期处于95%以上居高不下,作业运行时间最高达109小时,排队时间最高550小时,系统及网络改造迫在眉睫。
图 “未名一号”运行状态
针对排队和作业时间过长的问题,各厂商先后提出IB(Infiniband)、RoCEv1、RoCEv2等无损网络技术。通过严格测试,北京大学高性能计算校级公共平台选择采用华为超融合数据中心网络CloudFabric 3.0解决方案,基于智能无损高性能计算网络搭建高性能计算集群,100%释放算力,缩短作业运行时间和排队时间。
华为智能无损高性能计算网络助力北大提升科研效率
此次测试主要关注TCP/IP、IB和RoCEv2分别在高性能计算基准测试工具Linpack、地球系统模式CESM以及分子动力学软件VASP等应用场景中的测评结果。
实验结果发现,在VASP测试中,华为智能无损高性能计算网络100GE RoCEv2优于IB;在Linpack和CESM测试中,华为智能无损高性能计算网络100GE RoCEv2与IB性能表现基本一致,也证实了在真实应用场景下华为智能无损高性能计算网络可以代替IB。
华为智能无损高性能计算网络解决方案独家实现以太网0丢包,与传统以太网相比,可实现服务器规模不变,算力翻番;可提供业界最高密768*400GE交换机CloudEngine 16800,可构建10E级的超大规模算力集群;独家实现网算一体,网络协助计算,经第三方权威测试机构Tolly认证,任务完成时间(JCT)对比IB 缩短 17%。
北大高性能计算校级平台拥有国内领先的超算集群,全系统Linpack效率常年位居前列,对网络性能、可靠性和先进性要求都非常高。此次测试结果加深超算行业技术圈对华为超融合数据中心网络全无损以太的充分认可。未来,华为智能无损高性能计算网络将更广泛地应用于教育、科研等领域,为国家科学计算、工程技术创新、高精尖科研添砖加瓦。