5月18日,浪潮与英特尔联合举办傲腾持久内存媒体沟通会。
2020年,企业存储与多年前相比已大有不同,存储的发展离不开硬件性能的提升,也离不开软件方案的创新。x86架构的服务器存储方案打破了专有存储设备统治的市场,在数据爆炸的时代,文件存储、非结构化数据也找到了更适合自己的方案,在经济性、可靠性方面都经过了验证。
现代存储系统需要灵活多变,并能够为随机读/写和顺序读写提供高性能。存储技术正在不断演进以满足这类需求,这也意味着企业数字化转型需要让存储的性能变得更高,从而拉近更多数据与处理器之间的距离。
我们认为,未来的存储还将在NAND固态盘层面进行创新。如之前所说,对更加庞大的数据集进行存储迫在眉睫,NAND固态盘将持续提供更大的容量。这些具备更大容量的SSD固态盘主要通过更高的存储单元面积密度和每单元比特数量的增加,实现3D NAND芯片级密度的持续快速提高。
这也是我们在此次傲腾持久内存沟通会上的最大感受。
会上,浪潮服务器产品线总经理沈荣先生、浪潮方案测试部副总经理魏健女士、浪潮能源与交通行业部解决方案总监刘景志先生,以及来自Intel的技术专家Terry Wei,与大家分享浪潮基于Intel傲腾持久内存的最新解决方案。
以下为赛迪网整理后的嘉宾精彩观点集锦:
浪潮服务器产品线总经理沈荣:释放计算力,此刻即未来
社会治理方面,我个人感受到最多的事情还是出门停车的方便,包括每次导航结束的时候他会自动问你要去哪儿个停车场,没有数字化做支撑是不可能的。中间讲商业制造这方面的内容,那我们的智慧工厂这里也提到了,虽然浪潮在智慧上面感受是最深的,目前服务器营运里面全球最智慧的工厂是我们浪潮的。
大家可以想像如果大量智慧工厂用人工的话,我们很难在疫情期间把人很快找回来安排复工,正因为智慧工厂他的安排使得我们不需要这么多工人在工厂里面实时的工作,这个也是非常重要的变化。
另外一些智慧零售简单讲也很正常。
比如说零售店里面如果是买衣服的,他会看到每件衣服在试衣间里面试的特别多,这件衣服有没有被购买,没有购买是什么原因,他的库存是对店经营的人员来说实时看到库存是什么样的情况。所以说要不要调价,库存高要不要调价,不光是消费者看到这家店铺我可以模拟测试看看好还是不好,背后这个店铺的经营也在变成智慧化的过程,电信网络智慧网络我们刚刚疫情期间也看到了一个最近推出叫做大数据移动智能这样的事情,我上次去剪头发他扫你一个码,虽然不知道这部手机是不是他自己本人的,但是他可以知道这部手机有没有去过疫区,具体这些我就不一一细讲了,智慧医疗智慧教育大家都很理解。
我想这个社会在很长一段时间发生了很大的变化,无非这些数字化的转型真的在切切实实在改变着我们整个世界。讲到这些新的东西各种各样的应用,智慧工厂智慧零售这些事情,我想应用不断的发生,面上大家看到巨大的改变,但是看不见背后是对IT架构也是一个巨大需要进一步重塑的需求。事实上要实现这一切美好的智慧生活的一些方式,我想我们需要基于很大量的数据处理,很多时候是实时的数据处理。这张图告诉了大家可能从端,像你手机也可能是我们城市里很多的摄象头,也可能是我们工厂里的各种传感器,他在实时的生产出各种各样的数据,这些数据到了边缘我们称之为边缘计算进行搜集进行数据的提取,这个工作还是非常的重要,所谓的数据往后面核心数据去送的话,我相信管道受不了、数据中心也受不了,很多数据在边缘端经过初步加工初步处理,这样的话把真正有用的数据实时的数据传回到后面数据中心,进入到数据中心以后才是真正进行大规模的智慧计算,讲到智慧计算背后逃不到的是异构加速,传统的计算机结构为了更多的传统计算和准备,而今天不同数据结构,比如说图象数据比如说语音数据,各种各样的数据本身的结构不一样,如果说传统的处理器来处理这个效率不是最高的,这个会导致异构计算的发生,专门的处理器来处理专门的数据,但是同时要把这个处理的结果要吻合在一起,这个就是异构的部分,异构加速不是一个神秘的东西而是广泛使用的事情。
讲到这个数据离不开储存,数据储存在哪里,以什么方式储存,这些创新的东西就很重要。
这里面我们讲到大规模智慧计算我们更多是基于人工智能算法来进行数据处理的做法,只有这样才会进一步满足所有智慧生活所需要各种各样的服务需要。在这个智慧时代我们觉得一定要有一个新型信息的基础设施来支撑他的应用,这个数据需要这样基础设施能够提供各种算例的服务,提供各种各样数据人工智能的服务以及怎么样互联互通,这个对我们来说核心就是计算力的生产中心,也是计算力的供应中心。
新一代存储方面,最近几年出现了SSD固态硬盘的事情,因为他没有机械部分,所以说读取数据快了很多,机械性能也好了很多,但是不管怎么说随机动态储存理念跟固态盘之间就差了很远,不是一个数量级的,百倍以上更多的一个差别的事情,这个非常大,能否有一个产品有一个方案能够弥补现在这样的一个事情,是不是在DRAM和固态盘之间增加一层所谓持久内存的架构,这个产品我想在业界很早被研究以后,我想在过去几年正式被业界所推出来,推到这个市场里面来,形成了一个增速的产品而不是概念,这个产品推出来直接完完全全颠覆原来计算结构,他也是直接挂在跟CPU直连的软件,直接插在DRAM的插头上。
最后我想有了这些产品有了硬件产品有了软件产品,我想我们浪潮还是要把自己真正做好,是客户身边的“数据专家”,不光是要实现高效的实时的数据分析,还是说保障业务弹性的扩展,还是说进一步广度的投资回报率实现数据价值的最大化这些方面,我觉得浪潮更愿意跟用户在一起,一起来应对未来的发展趋势,使大家数字化转型能够转的更好更成功,我想这个是大家都在路上,因为数字化转型不是今天,在我看来虽然过去很多人在做,但是只是一个开端部分,在过往的时间之内还是要跟媒体界各位朋友我们一起帮助更广大的客户,把数字化转型做的更好。
Intel的技术专家Terry Wei:傲腾持久内存 提升算力与存储力
以DRAM为主的内存技术一直主导着数据中心市场,他过去通常以每十年为一个阶段,我们会看到他密度的增长速度在初期还是比较快的,可以达到好几倍的数据在增长,但是在最近十年阶段里面,他密度增长、容量增长越来越乏力,受限于技术本身的特点,他容量密度的扩展是遇到了技术的瓶颈。反观用户层面的需求我们再看趋势的部分,用户的数据量越来越大,越来越多的技术采用基于内存的计算方式来支撑用户直接的数据量,这个就造成了两者之间一个是容量的增长乏力,一个是用户数据增长越来越快,两者之间的一个交叉的瓶颈问题。
同时在CPU领域,大家看到,单个CPU核数也是在不断的增加,那未来的趋势里面会看到CPU的核数急剧增长也是非常大概率的事件,每一个CPU核都是需要内存的,那这样会导致整个服务器对于内存的需求也是越来越大的,实际上这个是加剧了普通内存基于DRAM技术内存不足的局限性。正是看到了这个问题,Intel在去年4月份上市我们purley平台第二代处理器cascade lake的时候,配套发布了一款基于Intel傲腾新型介质内存产品,他的外观完全和内存长相一模一样。利用傲腾这个介质的特点我们可以给用户带来三个主要的价值,首先我们可以比较好的解决内存容量瓶颈的问题,所以我们这是一个大容量的内存条,他可以提供单条128、256、512GB三种规格,每一个CPU socket为单位我们最高可以提供3TB的内存容量,在一个双路主机上面那就是6个TB,4路主机可以达到12个TB。傲腾这个介质同时也是一个非易失性的介质,这个和DRAM完全不一样,在掉电以后用户记录在我们新型内存介质上面的数据是不会丢的,所以我们有这样一个名称的由来,就是持久化内存。
我们利用傲腾介质做成的持久内存,首先我们有比较好的性能,他的性能基本上接近于DRAM,尤其是在延迟表现上面,和DRAM处在一个数量级上面。那利用我们容量大的特点我们可以作为内存市场的一个非常好的有益的补充,尤其是针对大内存需求的客户,我们是提供了一个非常好的性价比的解决方案。在他的下面还有我们传统基于3D Nand、基于SATA接口、甚至机械盘整个这样一个体系,那我们傲腾持久内存定位就定位在我们中间这个位置。
这个产品设计的时候Intel考虑了非常多的方面,那我们今天时间有限,不可能把产品所有方方面面的特性给大家做详细的介绍,我这边挑几个方面来介绍一下。
第一个作为一个持久化的内存,既有内存的特性又有存储的特性,所以说产品的安全性、可靠性是我们顾虑非常多的地方,所以说我们在片上我们设计了双重ECC数据保护,同时我们除了正常运转的介质以外,我们还在片上备有一片spare part以确保数据的安全,任何的数据读写的时候因为介质原因读写失败,我们都可以放在我们这个上面来进行保护。其他的包括我们所有的写入数据都是加密的,并且我们也在上面设计了先进的RAS feature以提高高可靠的特性,这是我们在产品设计第一个方向。
第二个就是介质寿命,大家知道在使用DRAM的时候本质上他也是有寿命问题的,他也会出现故障,但是在使用傲腾这个介质的时候用户会比较多的考量这个介质有没有类似于像3D Nand这样的寿命问题,傲腾这个介质当然也有,我们是一个非常长寿命持久化的介质,长到什么程度呢?我们给用户提供是5年的质保修期,写入对介质的磨损最大,在五年的时间里面我们对用户的写入不做任何限制,你可以使用最大的带宽,所有的时间都可以写入,我们的寿命可以确保你在5年里面足够完成挑战,那也就是说您在五年里面可以近乎理解成,在他的质保修期里面产品的介质寿命是无限的,我们用了全生命周期总写入数据量这么一个概念,表明我们的说明,叫做PBW,所以在介质寿命上面用户可能比较关心这一点,大可以放心,我们是一个非常长效的介质。
谈完产品本身以后我们很快的介绍一下他的工作模式,我们持久化内存可以有两种工作模式,首先可以工作在内存模式上面,我们和系统原有的DRAM做一个组合配对,给用户提供一个透明的大内存供用户使用,用户原有的系统,当然是比较新的处理器最近这些年出的处理器就可以了,然后用户的应用程序可以不用做任何的修改直接运行,所有的差异全部由我们的系统平台硬件进行封装,包括bios来进行管控,所以用户得到就是一个具有大内存这样一个服务器,这个就是我们内存工作模型,那在内存工作模式上面系统中原来的DRAM被我们内存控制器向前推了一格,变成了一个cache这样的角色,操作系统所识别的内存大小就是我们持久内存所提供的这样一个空间。数据在运作的过程当中第一次我们从持久化内存向CPU进行加载,同时在cache里面留有副本,当处理器再次需要加载数据的时候,那这个时候就根本不需要再去访问持久化内存所构成的内存空间,而是直接访问我们的而DRAM cache,这样达到最佳的性能。
另外一种工作模式我们称之为APP Direct的模式,我们可以理解成系统中有两个层级的内存,原有的DRAM作为你的一级内存,而我们的持久化内存作为二级内存可以提供更大的容量,他在读写性能上要比DRAM要略慢,比较适合处理热或者较热的数据,让这些数据量我们过去普通内存里面可能容量不够,他会通过配置方式调度到其他的里面,然后有一个磁盘在需要的时候通过配置的方式调入到内存,但是在我们这个方式里面完全可以把这些数据提前加载到我们的PMem所构成的二级内存里面,只是这个过程需要用户的操作系统,操作系统不能独立完成,他只能提供底层的驱动,需要用户应用软件来调度他的数据,这个也就意味着说这是一个很好的使用方式,但是用户的程序要做相应的修改。所以说我们在这个模型下面大家可以看到,这两者之间是完全独立的,由用户的应用软件做出自主的抉择。这个模型里面两者的对比更有优劣,内存模式方便容易使用,但是用户的程序是不是匹配这个模式会影响到性能,如果非常匹配,性能表现比较好,如果非常不匹配这个模式,性能就会比较差。那APP Direct的模式可以充分发挥出我们持久化内存全部的产品特性,包括持久化这个特性,但是用户的应用软件要做出相应的修改,而这个可能对用户工作环境带来一定的挑战。
像浪潮的服务器配置上面,我们可以配套所提供的方式,我这里罗列了我们最常用的几种模型,我们的合作伙伴可能会提供更丰富的使用方式,在不同的配置下面,比如说我们按照2-2-2模型满配,用户在双路系统下可以看到1.5TB的内存,但如果我通过bios设置改成了APP Direct模式,用户会看到他原有DRAM的空间,同时会多出两个以CPU为单位的768GB的持久化内存,合在一起是1.5TB的两个新型持久化内存的设备,需要用户的应用软件去按照内存的方式去访问这两个设备,这个就是APP Direct模式的由来。
在上市一年的时间里面我们也取得了不小的成绩,许多重量级的用户也加入我们使用新型持久化内存,在中国这边也提供了很多重要的成功案例,包括我们许多重要重量级的互联网合作伙伴,也有企业级的用户,因为需要非常大的内存,在这个场景下也在采纳我们产品,所以我们把他们Logo和名称在这里做了一个展示。
浪潮能源交通部刘景志:提高性能、降低投入
我们提供的解决方案当中用户体会到了性能提升了10%,而同时他的成本又降低了30%,这简单来说是起到了降本增效的作用。
我们最终用户需要对这个性能有所要求的,两秒之内就要反馈所有的查询结果,简单来说我汇总一下,他是一个比较典型的OLAP就是在线分析的场景也叫做查询,我要去搜索去分析我现在这种实际的效果实际的数据是什么样的,所以说为了压缩这个响应时长,某航信的用户自研了一套内存数据库系统,而为了满足数据和应用的及时性,他是用了all in one架构,也就是说所有的应用和数据都布置在同一节点的,那这样他读的性能就会有很大的提升,就是把所有的数据基本上放在内存上面去做计算力的应用。
而每小时内存的刷新数据他就可以达到4个TB,每一个服务器节点对内存容量的大小和读操作的性能要求是非常高的。基于之前的技术现状现在普遍采用DRAM的内存,所以说对于满足现在及时查询的响应要求是存在比较大的挑战的,所以说之前做的都是承载业务都是满载8路服务器来做的,那这个成本大家都知道相对是比较昂贵的。
我们既然知道他这个应用系统他的核心应用系统是要做这个事之后,然后就去找相关的匹配,我们会发现傲腾持久内存的这个技术,这是一个全新的内存技术,他确实和普通的内存没有什么差别,就是插在主板内存条上就可以了,但他就有几个特点,首先他大的特点就是大容量,比如说他的容量可以128G、256G,最高还可以到512G,他比普通的内存容量是要大很多的,这个对内存计算其实是非常有帮助的,当然还有另外一个特点,比如说内存的持久化,他具有断电数据不丢失的特性,还有就是你可以当普通的磁盘来用,他性能延迟是比普通的NVMe,包括普通的NVMe硬盘性能都是要好很多的。那我们再来看在这个运价系统里面他是要用到,当前需要用到PMem内存大容量的要求以及读写的性能,所以在他推荐的两种模式我们叫做APPDIRECT模式和内存模式,我们在这种案例推荐是内存的模式,所以更多的是利用大容量把这个内存容量这个问题先解决掉。
所以在这种情况下我们基本确定了这套方案是可以满足用户这种应用系统的,当然运价系统是一个比较复杂的系统,现在其实整个运价系统硬件规模有好几百台,包括了国内运价还有国际运价多个业务模块,包括还有国内的各种连接方式,我们本次提供是提供数十台4路服务器去作为运价变更搜索系统的一部分,作为整体放在现有分布式内存数据库计算集群里面去,去提供对外国际运价查询搜索计算服务。
所以前后我们做了一个方案对比,比如说他原来内存数据库单点配置的方案是用8路,之所以用8路更多是用到192个内存插卡的能力,他要把每个内存插卡都要配满,用到DDR4内存,原来最大的内存就是64G,所以他192个内存他反而64G可以达到12T的容量。当然这种方案成本可以想象这个成本是不便宜的,现在我们提供一个什么样的思路,我们用4路服务器,当然4路服务器只有48个内存套,但是我们可以利用现有傲腾内存大容量的技术,所以说结合起来,现在配的容量我们用24个512G的傲腾的内存,再加上普通的,当然现在是24个内存去整体让他计算性能得到提升,包括容量我们也很大的提升,这是整个单节点方案配置的情况。
当然在用户我们在推进用户做POC的时候,我们特意把单节点成本性能细节对比我们列了一个数据放在这,原来用的CPU内存都是这个样子的,现有方案是什么样子的,那通过这样的一个直观的对比我们会发现包括用户在测性能的时候,原来最关注的两个性能指标,比如说内存的访问延时和内存的带宽,这个是我们当时8路的时候就非常关注的性能指标。
我们会发现性能整体上会提升了10个百分点左右,当然除了性能提升之外他整体硬件的采购成本会直接下降了30%,当然除了硬件直接采购成本之外,其实用户节省的还有更多,比如说造成了功耗的下降,功耗下降了30%左右,所以说每个节点按照三点功耗计算,当然如果时间更长的话我们去运算,三点的节省每个节点每个服务器3点就可以节省2万块钱的电费,所以说整体几十台的节省数十万元电费的成本。当然这个成本节省还有空间的节省,大家知道某航信是在北京,北京的数据中心成本还是比较昂贵的,寸土寸金的,所以说空间我们让他直接节省了一半节省了50%,那这个直接带来的成本节省对于用户来说也是非常节省的,这个是单节点性能的对比。