前不久,亚马逊科技宣布全面推出Amazon Elastic Compute Cloud(Amazon EC2)DL1实例,该实例由英特尔于2019年收购的Habana Labs的Gaudi加速器提供支持。
Habana与亚马逊之间的这项合作其实从去年开始就已经展开了,在去年的Invent大会上,Gaudi就已经打入了亚马逊的EC2。到了今年10月,采用了Gaudi的AWS EC2实例正式被投入应用,并被命名为DL1实例。这也标志这亚马逊首个不基于GPU的AI训练实例正式被投入使用。
Habana Labs为Amazon EC2 DL1实例搭载Gaudi AI加速器并提供强劲动力,新的实例专为深度训练模型而设计。(来源:英特尔)
不基于GPU的AI训练
目前,AI云端训练大多是由GPU所支持的,GPU能够支持更大规模的数据模型,让AI开发者能够在更短时间内实现更多AI突破。
而由海量数据构成的AI时代所促生的大量新兴应用场景,他们往往更需要针对特定场景所设计的芯片,因此,AI训练芯片也成为了除GPU以外的选择。需要注意的是,AI训练是基于大量数据来构建的,而为了提高模型的预测准确性,数据科学家和机器学习工程师正在构建越来越大、越来越复杂的模型。为了保持模型的预测准确性和高质量,这些工程师需要经常调整和重新训练他们的模型。而这需要大量的高性能计算资源,也导致了基础设施成本增加。
从实际情况中看,据Habana介绍,市场上对云端和本地部署数据中心的AI训练有大量需求。根据AI/机器学习基础设施的用户的反馈中显示,56%的AI/机器学习客户表示成本是最大的问题。而Gaudi正是为了解决这个问题而设计的。
“Gaudi是为优化AI训练而定制的处理器,而GPU是以AI工作量为导向的图形处理器”,Habana Labs中国区总经理于明扬介绍:“Gaudi专为高效和低成本的人工智能效能而设计,也为人工智能和可编程的Tensor Core Processors(张量核心处理器)而定制。”
亚马逊方面也同样公布了一些关于张量核心处理器的描述,其首席布道师Jeff Barr表示:“这些是专为ML训练而设计的VLIW SIMD(超长指令字/单指令多数据)处理单元,TPC是C可编程的,尽管大多数用户会使用更高级别的工具和框架。”
根据英特尔官方资料显示,定制化的AI训练芯片与通用GPU相比,新的DL1实例使用专门构建的Gaudi加速器,通过以更低的成本提供更高的计算效率来加速机器学习模型训练。DL1实例配备多达8个Gaudi加速器、256 GB高带宽内存、768 GB系统内存、第二代亚马逊自定义英特尔至强可扩展(Cascade Lake)处理器、400 Gbps网络吞吐量和多达4TB的本地NVMe贮存。
采用了这种设计的芯片,使得Gaudi在性能表现上不输GPU。所以,当Habana将这些功能进行叠加后,这些创新转化为比用于训练常见机器学习模型的最新GPU驱动的Amazon EC2实例高40%的性价比。从而,解决了云端和数据中心市场在布局AI训练时对成本的顾虑。
Gaudi如何实现高性价比
Gaudi的架构采用了全新的设计以提高效率,实现了更高的资源利用率并且包含更少的系统组件,降低了AI训练成本。
首先从成绩上看,Habana在其新闻稿中称,Habana认识到MLPerf性能基准测试的重要性,用户可以查找在6月份发布的针对8个基于Gaudi的系统进行基准测试的1.0提交结果,与DL1.24xlarge非常类似。
这里所提到的MLPerf HPC 1.0是用于衡量高性能计算中 AI 性能的行业基准测试,该测试作为业内最权威的AI基准测试,吸引了很多国际厂商、研究机构参与其中,在数据中心推理、边缘推理、集群训练和单机训练各类AI场景下,不断突破AI系统性能。
但在此次MLPerf提交结果中,Habana并没有应用数据封装或层融合等额外的软件优化功能来提高性能。对此,于明扬表示:“Habana这样做的原因是公司将重心放在了客户需求以及 AWS的合作上面。新闻稿中的表格体现了性价比指标,客户可以了解即使没有这些优化,客户也可以进行更多培训并减少支出。对客户而言,重要的是:客户可以做多少AI训练,以及花费是多少。”
在这次评估中,我们考虑了两种流行的模型:ResNet-50 和 BERT-Large。
于明扬补充道:“我们必须积极提升我们的软件能力。我们现在支持24种流行的AI模型,并且能够通过我们的Gaudi解决方案集有效地为业界最大的CSP AWS提供服务。”
Gaudi的价值主张立足于性价比和易用性。Habana提供的架构选项旨在提升效率,不会让终端用户迁移到Gaudi的工作产生困难。根据Habana官方介绍,客户可以使用随附的 Habana SynapseAI SDK 快速轻松地开始使用 DL1 实例,该 SDK 与领先的机器学习框架(例如 TensorFlow 和 PyTorch)集成,帮助客户将他们当前在基于 GPU 或基于 CPU 的实例上运行的现有机器学习模型无缝迁移到 DL1 实例,只需更改最少的代码。
除此之外,Habana还建立了开发者社区和开源来支持用户在“易用性”方面的需求。在这些方面的提高,使得采用Gaudi的AI训练可以实现较高的性价比。
Gaudi还能做什么
Gaudi所具有的性价比优势,也让很多厂商愿意去尝试采用AI芯片来完成AI训练。从应用场景上看,Gaudi新实例支持自然语言处理和计算机视觉应用程序,包括对象检测和图像分类。
Gaudi正在处理的一些应用程序和类别,应用案例具体还包括:
1.对象检测和分割:缺陷检测(工业领域)、错误检测和工业管理(零售领域)、医学扫描和影像(医疗领域)
2.图像分类:自动驾驶汽车细分(交通领域)、照片和视频识别(网站和客户端领域)
3.自然语言处理:主题查询、问答处理、情感分析
据了解,Gaudi参考模型存储库包含 20 个高需求模型。而从Habana所规划的路线图来看,Habana还将继续对其进行扩展,包括其软件功能。
(Habana Gaudi优化路线图)
另外,据Habana团队透露,他们正在开发下一代Gaudi2 AI处理器,新处理器会将Gaudi架构从16nm提升到7nm。同时,公司方面也表示:“为了我们的最终客户的利益,进一步提高性价比,同时保持相同的架构和完全利用我们与Gaudi构建的相同SynapseAI软件和生态系统。”
Gaudi2 AI处理器将于2022年推出,它可以提供7纳米处理器的效率,同时,使用Gaudi优化软件的用户还将能够在Gaudi2上使用相同的软件,最大化用户已付出的投资。
从Habana与亚马逊联手合作,到现在他们之间的合作项目开始逐渐落地,并得以应用,便可以预见云端AI训练的一股新势力正在崛起。