2023年11月,国家工业信息安全发展研究中心、工信部电子知识产权中心发布的《中国AI大模型创新和专利技术分析报告》显示,我国大模型专利申请总数已突破4万余件,大模型相关领域的创新日益活跃。
相对于“能做诗会画画”的针对to C市场的大模型而言,面向to B市场的大模型如何深耕行业,充分了解行业知识,并且深入到行业客户的业务流程中,是形成行业壁垒或者说差异化竞争优势的关键。新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告3.0》显示,大模型厂商在技术实力上呈现出百家争鸣的态势,不同厂商在产品特点和优势上各有千秋。
除了身处热潮中心的大模型厂商与大模型本身以外,那些为大模型的行业落地赋能并提供相关基础软硬件和服务支撑的企业,不应该只是“无名英雄”,相反他们才是行业用户用好大模型不可或缺的可靠保证。
大模型落地最重要
对于很多致力于大模型普惠的基础设施提供商以及服务商而言,大模型是AI基础设施及服务中的一个重要组成部分,是撬动AI行业应用的一个支点。他们开发、优化大模型,旨在为那些自身不具备独立开发大模型的能力,或者没有必要自己开发大模型的企业用户提供一个快速部署和应用大模型的路径和平台,让各行各业的用户现在就能享受到大模型带来的红利。
作为AI基础软件供应商,九章云极DataCanvas为企业训练和应用大模型赋能,公司自研的多模态大模型系列——DataCanvas Alaya九章元识作为基础软件设施AIFS(AI Foundation Software)的重要组成部分,为企业用户提供了Foundation model,方便用户在此基础之上训练、微调自己的大模型。
对于大模型训练的更大挑战在于,如何在减少算力消耗的情况下,加速大模型的训练,并且在训练完成后更,更好地调教这个模型,并使之能够“飞入寻常百姓家”,让广大的中小企业受益。
九章云极DataCanvas之所以倾心打造Alaya元识系列大模型,初衷亦是如此。所谓元识,来源于佛教用语,意为先天具备的认识能力。Alaya元识系列大模型本身综合并消纳多种能力,旨在通过大模型的通用能力,最大程度地感知人类古今的所有知识、外界的运行规律、科学道理等,在此基础上更好地支持人类的各项业务,并具有类人的能力。
Alaya元识系列大模型的本质还是赋能AI应用:一方面,企业用户可以在Alaya元识大模型之上进行二次训练或微调,以满足业务应用需求;另一方面,九章云极DataCanvas拥有自己的智算中心,Alaya元识系列大模型就部署在此智算中心里,中小企业用户可以直接调用九章云极DataCanvas提供的大模型服务。
以Alaya元识系列大模型为牵引,九章云极DataCanvas正在积极寻找大模型在企业业务中的落地场景。目前除了通用大模型以外,公司还推出了金融行业大模型,未来还将发布更多针对行业的大模型,赋能和推动大模型应用的普及。
元识大模型的与众不同
随着“百模大战”渐成气候,产业界、学术界还有媒体纷纷发布自己的大模型评测榜单。但由于没有公认有效的评测标准和方式,以及不同榜单的侧重点不同,导致不同的排行榜的结果差异很大,甚至是有天壤之别。公开公平公正的评测确实能够为行业用户选择大模型提供有益的借鉴和参考,但是除了一些关键的技术指标之外,大模型能否有效地解决行业用户的业务痛点,不仅好用更要易用,才应该是选择大模型的重要标准。
Alaya元识大模型是九章云极DataCanvas自研的“通识+产业”白盒大模型。作为九章云极DataCanvas AIFS的核心能力之一,它秉持开放友好的开源理念,提供了一系列不同配置和参数、具备业界前沿能力和技术的预训练大模型,赋予用户更大自由度的AI创新能力,以加速实现大模型在多元业务场景中的落地和应用。
1.“白盒”大模型为用户提供更大自由度
现在,市场上的很多大模型都是“黑盒”,虽然在一定程度上开源了算法和架构,允许用户在上面进行训练,但是仍然受到诸多限制。比如,虽然允许用户使用该大模型,但是不能做微调,或者不允许用户做一些自己特有的商业化应用。Alaya元识是全面开源且license友好的“白盒”大模型,遵循Apache 2.0 license,行业用户可以在Alaya元识大模型之上自由地训练、微调自己的大模型。
2.“多模态”是必要前提,更是创新的手段
所谓多模态大模型,是指可以处理来自不同模态,如图像、语音、文本等多种信息的机器学习模型。今天,多模态已经成了大模型的“标配”。Alaya元识大模型不仅可以支持文本、图像,还能支持时序数据、结构化数据等。
举例来说,我们在设备维修手册中可能会经常看到类似的描述——“如图所示,故障点为图中红圈所示的位置……”如果是一个仅仅基于文档的大模型,就很难理解这句话的正确含义。图文示意就是一个典型的多模态应用。
对于Alaya元识大模型来说,深耕多模态毋庸置疑。九章云极DataCanvas还想做得更多,即将“数据”也作为重要的模态之一进行深入研究。应用大模型,数据是必须跨越的一道门槛。九章云极DataCanvas在自然语言的理解、文生图、代码生成等是大模型应用得比较好的领域有很多已经落地的成功案例。但是将数据作为一个模态进行研究并训练大模型的公司屈指可数,而九章云极DataCanvas走在前列。比如,九章云极DataCanvas发布的DataPilot,作为一种数据处理新范式和基于大模型的新一代数据架构工具,通过充分利用元识大模型的通用文本的理解和生成能力,以及在数据领域的微调优化,能够帮助用户实现数据在建模全生命周期内的智能化、自动化。
在训练大模型的过程中,数据处理、数据转换、数据分类、数据标签制作、数据存储等是费时费力的工作。以前,如果有类似需求,通常是由业务