【赛迪网讯】随着大数据技术、超算中心建设的快速发展,正有越来越多的科研院所、企事业单位作为需求端谋求着更加稳定安全且强大的算力支持。然而在实际的应用场景中,超算平台的建设依旧面临技术落地及安全性等方面的痛点亟待纾解。
作为一家企业级云服务商和数字化解决方案提供商,青云QingCloud在云计算与超算平台的融合领域有着相当深的经验。11月23日,在QingCloud EHPC发布会上,青云QingCloud云平台&服务部高级总监陈海泉和青云QingCloud EHPC 产品经理苗慧就青云最新推出的EHPC超算平台产品进行了介绍,并分享了他们对超算平台中心建设的看法以及青云在这一领域的愿景。
青云的高性能计算场景应用
陈海泉指出,大数据和人工智能正在与超算融合,而大数据和人工智能与超算的结合也在核酸疫苗和核酸药物的研发、金融风控等场景中得到了具体应用。
紧接着他详细阐述了青云QingCloud EHPC超算平台所支持的各种新的业务场景。
对于超算中最常见的仿真和建模业务,青云提供了低延时、高带宽的InfiniBand网络、高速并行文件存储以及CPU/GPU的算力组合。这种算力组合不仅能支持大规模求解运算,还能提供 GPU 桌面进行图形前后处理,完成一个闭环的业务场景。
对于大数据业务,QingCloud云平台提供的对象存储容量达 245PB,跟计算节点结合,可以用于大规模的数据处理和分析。计算节点到对象存储的网络带宽达到1.6T,能够保证大数据计算的超高性能。
对于人工智能训练业务,青云提供算力达850PFlops的A100 GPU资源池和全闪并行文件存储,并且能够结合容器平台,提供性能极致优化、轻量便捷、开源开放的人工智能平台。
依托云平台的多种存储服务,用户可以按照自己的业务来选择合适的存储类型,包括冷热类型的对象存储、全闪并行文件存储或者块存储等。而借力虚拟化技术的加持,青云可以快速为不同业务构建其所需的运行环境,随时可以切换 MPI、TensorFlow 或者 MapReduce 软件平台,充分利用超算中心的硬件资源满足各种业务场景的需求。
青云EHPC对传统超算中心的突破
陈海泉谈到了传统超算中心在使用方式和安全问题上的痛点。他指出,用户在使用传统的超算中心时,需要提交一个申请,其中还有人工审批的环节,当用户得到审批通过后,还需要安装VPN客户端连接超算中心提供的登录节点,繁琐的流程影响了便利性。
另一方面,超算中心的登录节点往往是很多用户共享的。共享节点存在两个问题:一是超算中心为了保证其自身安全不提供 root 权限,给用户安装软件带来麻烦。二是Linux隔一段时间就会暴露出一些系统漏洞,如果被某些用户利用得到root权限,就能窃取平台上其他用户的数据。
为解决便利性和安全性两方面的问题,青云的超算平台做了相应的改进。一方面青云把传统的审批制度变成用户自服务的形式,用户随时可以在云平台注册账号,并且充值购买其需要的计算资源。另一方面,青云做了计算、网络与存储的租户隔离,实现青云管理节点跟计算节点的分离,同时提供零信任客户端,让用户登录超算中心的时候更便捷和安全。除此之外,青云还推出新的独享EHPC集群、集成化工业仿真软件等创新举措以改进超算业务。
青云EHPC 产品简介及服务实践
青云QingCloud EHPC产品经理苗慧介绍,EHPC产品是基于青云公有云IaaS平台、PaaS平台的云基础设施,主要为青云用户提供公有云服务,为部分客户提供专属云和混合云等多种形态的产品。QingCloud EHPC 提供云上超算 SaaS化服务,通过青云的弹性公网IP、公网带宽,将数据进行快速的上传、下载,与本地数据同步。
在产品架构布局上,QingCloud EHPC的服务架构主要分为资源层、管理层和用户端三层。而在用户构建集群的过程中,EHPC集群分为四个节点,分别是:登录节点、管控节点、计算节点和GPU可视化节点,而这四个节点完全挂载了青云的共享文件存储以及共享软件仓库。
苗慧总结了QingCloud EHPC平台的四个优势,即弹性伸缩,按需配置;只管使用,无需运维;资源租赁,性价比高;租户隔离,安全可靠。
当被问及青云的目标客户群时,苗慧表示青云在整个高性能计算领域的主要用户有科研院所,科研企业、汽车制造、新能源/新材料、芯片制造以及生物制药等。
陈海泉总结了青云的未来愿景,即让更多的超算中心加入青云的分布式云节点,共建一个资源共享的算力网络。(文/徐培炎)