昨日,华为举办2024数据中心能源十大趋势发布会并发布《白皮书》。发布会上,华为数据中心能源领域总裁尧权定义未来数据中心的三大特征:安全可靠、融合极简、低碳绿色,并分享数据中心在部件、产品、系统和架构方面的技术演进趋势,凝聚共识,洞见未来。
华为数据中心能源领域总裁尧权
尧权表示,AI大模型时代,未来5年全球AI算力年复合增长率超过80%,数据中心逐步从云数据中心向云+智算中心演进。华为基于深刻洞察和长期实践,面向全球发布2024数据中心能源十大趋势,与业界分享华为对未来数据中心的洞见和思考。
据Uptime权威数据,从2019年到2022年,数据中心业务中断损失超过10万美金的比例,已经从39%上升至71%,且会随着算力需求翻番成倍增长。毫无疑问,安全可靠是数据中心最核心需求,应始终作为最高优先级关注。
趋势1:高可靠产品+专业化服务是保障数据中心安全可靠运行的关键
数据中心承载海量数据的存储、处理和传输,为千行百业坚定运行提供保障,而数据中心的安全性、可靠性一直是较薄弱的环节。为确保数据中心的安全可靠运行,在产品设计、生产环节就要贯穿“全链安全”的理念,同时严控产线质量,高度自动化,减少人为干预,保障产品自身的高可靠性。此外,要大胆假设,充分考虑产品出现问题后的应对措施,通过提供专业化部署和运维服务,降低产品失效率,最小化灾后影响,完善端到端的保障机制,双管齐下保障数据中心安全可靠运行。
趋势2:分布式制冷架构将成为温控安全的更优选择
传统大型数据中心多采用集中式制冷架构的方案,如传统冷冻水系统,冷冻站中涉及七大子系统和几十种设备,各设备之间不能独立运行,一旦发生单点故障,可能会影响整个冷冻站的安全运行,导致数据中心大规模宕机,近年来业内部分数据中心安全事故也说明集中式制冷架构存在单点故障的风险。相较之下,分布式制冷架构灵活,各个子系统相互独立,单台设备故障不会影响其他设备运行,故障域更小,可靠性更高,可以直接从架构设计上避免数据中心制冷系统的单点故障,提升数据中心的运行可靠性。
趋势3:预测性维护将成为数据中心基础设施的标配
数据中心的维护往往是事后型,发生事故后才知道问题所在,但随着智算时代的到来,数据中心的故障响应时间大幅缩短。未来数据中心基础设施的运维,预测性维护将成为标配,从事后型转为事前型。得益于AI技术的快速发展,预测性维护的范围将持续扩大,从电容、风扇等易损件的寿命预测、设备的热失控预警到制冷系统的漏液预警,都能提前预测,提前处理避免事故的发生,做到“治未病”,从被动“救火”走向主动“防火”,在运维方面大幅提升数据中心可靠性。
趋势4:全生命周期的网络安全防护体系将成为数据中心基础设施的保护盾
随着数字化、智能化程度的加深,网络安全风险也在成倍增加,网络攻击越来越常态化。不管是UPS还是空调设备,一旦遭遇恶意攻击,都会直接影响数据中心安全可靠性。未来数据中心基础设施,硬件安全加软件安全,才是全方位的安全,软件安全要从供应安全、纵深防御和运维/运营安全三个维度,构筑全生命周期网络安全防护体系,为数据中心的安全可靠运行保驾护航。
趋势5:预制化、模块化将成为高质量快速交付的最佳选择
互联网云厂商全球业务加速发展,带动数据中心建设需求显著增长。而传统的数据中心建设模式,建设速度慢,工程复杂,不能满足快速部署的要求。因此,建设周期更短、质量更高的预制化、模块化方案将成为首选。通过“工程产品化”和“产品模块化”,在工厂一体化集成,完成预制和预调试,保证现场交付的是高质量产品,有效缩短交付周期,同时满足客户业务快速上线需求,还大幅减少现场施工造成的“三废”垃圾。
趋势6:专业化管理平台让数据中心运维更安全、更高效
从千柜级建筑到万柜级园区,数据中心呈现规模化、集约化发展趋势,相应的整体运维复杂度也大幅提升,且数据中心设备多为“哑”设备,依赖传统巡检难度大,对技能的要求较高,故障定位时间长。构建专业化的管理平台,可以显著提升数据中心运维效率和准确性,通过原厂的专业化管理平台, 帮助客户构建设备深度管理能力,大大降低运维难度,做到快速判断问题,及时排除故障,确保数据中心安全稳定运行。
趋势7:风液融合将成为业务需求不确定场景下的优选架构
当前正处于通用算力和智能算力的过渡期,同一个数据中心会同时存在通用算力和智能算力场景。通用服务器单柜功率密度一般不超过15kW,风冷型设备即可满足制冷需求,而智算中心单柜功率密度通常超过30kW,这种场景往往需要液冷来散热。对于需求不确定的业务场景,风液融合将成为适配未来演进的数据中心优选架构,通过风冷+液冷的组合和比例可调,灵活适应业务需求变化,保护用户投资。
趋势8:间接蒸发冷依然是现在和未来最优的制冷方案
当前风冷方案仍占据主流应用场景,在冷源侧,间接蒸发冷却方案相较冷冻水系统,在架构、效率和运维方面存在明显优势,是现在和未来最经济适用的制冷方案。间接蒸发冷却的分布式制冷架构可有效避免单点故障,可靠性更高;并且通过最大化利用自然冷源,仅需一次热交换,在寒冷地区绝大部分时间无需压缩机制冷,实现极致PUE;针对智能算力需求,间接蒸发冷却支持未来演进的架构,进一步适配液冷的计算场景。
趋势9:能效PUE挖潜要从关注部件高效调整为系统工程最优解
“碳中和”是全球共识和使命,传统数据中心关注提升UPS、空调等部件效率,但受限于元器件物理限制,部件的效率提升接近瓶颈,微小改进的时间和成本远赶不上算力时代需求。因此,数据中心能效的提升要转换思路,从关注部件效率转为系统工程优化,用系统工程思维综合审视,在现实条件和部件技术水平进行权衡,得出最优解,如UPS双变换模式转向S-ECO、数据中心PUE转向PFPUE(算力PUE),端到端的进行数据中心能效优化。
趋势10:AI调优将成为存量DC能效智能优化的最佳选择
在数据中心节能方面,除了新建的数据中心,仍有大量存量数据中心PUE远高于“国家一体化大数据中心”政策要求,面临节能改造的迫切需求。传统的节能改造需要停线停业务,存在业务中断的风险,而采用人工调整优化的方式,难度大,效果差,频率低。相较之下,AI能效调优解决方案通过预置AI算法和大数据模型,可对存量数据中心实现节能优化,且AI调优不依赖人工经验,优化速度快,效果好,实现从“制冷”到“智冷”的转变。