2023年12月17日,掘力计划在深圳成功举办第 28 期分享活动。本次活动以《大模型的技术探索与 AIGC 应用创新》为主题,云集多名人工智能业内大咖,就大模型技术的最新进展与商业化应用进行深入探讨。会场座无虚席,现场气氛热烈。
本次活动内容丰富,观点独特,深受与会者好评。其中,RWKV 元始智能联合创始人罗璇讲师详细解析了 RWKV 模型的计算效率优势;NVIDIA 资深工程师王猛讲师介绍了 TensorRT-LLM 强大的推理性能;阿里巴巴企业智能算法负责人陈祖龙讲师分享了大模型助力企业内部数字化转型的实例;爱创作人工智能联合创始人朱强强讲师则阐述了 AIGC 怎样颠覆出口跨境行业的运作模式。
一、RWKV模型带来计算效率和成本的双提升
罗璇讲师带来主题为《RWKV,新架构的大模型》的分享,他不仅是 RWKV 元始智能的联合创始人,还拥有丰富的技术研发与产品管理经验。罗璇讲师指出,RWKV模型通过其特有的网络结构设计,使得其时间和空间复杂度分别降至 O(1) 和 O(T),极大提升了计算效率。其中,Receptance 模块提取输入的语义特征,Weight 模块通过位置权重实现长程依赖建模,two-stream 设计则兼具了 RNN 和 Transformer 的优点。这种算法架构避免了 Self-Attention 中顺序操作的计算瓶颈,可实现顺序长度不变的恒定时间复杂度。
例如,在一项翻译任务中,当文本长度增加到 2048 时,RWKV 的加速比达到 45 倍之多。即使在长度为 4096 的极端情况下,其吞吐量仍远超过基准模型。在推理阶段,RWKV 消耗的内存也保持恒定,这使其可以在大多数设备上流畅部署,而不受长度限制。
与此同时,RWKV 模型显著降低了训练和使用的计算成本。相比 BERT-Large 等模型,其参数量减少 75%,计算量减少 65%。这不仅大幅降低了算力需求,也使得商业部署门槛更低。业内测试表明,其算力价格比可以低至 1/20,存储成本也更加经济。因此,RWKV 使大模型的应用变得更加实用与可行。
二、TensorRT-LLM 构建高性能的LLM推理架构
NVIDIA 资深 DevTech 工程师王猛带来名为《Introduction to TensorRT-LLM》的主题演讲。王猛讲师在 NVIDIA 已经工作四年多,主要负责 TensorRT 和 TensorRT-LLM 等相关框架的支持,在推理加速领域具有丰富的经验。
王猛讲师在演讲中详细介绍了 TensorRT-LLM 这一 NVIDIA 自研的 LLM 推理加速解决方案。TensorRT-LLM 通过软硬件协同设计,专门针对大语言模型的推理特点进行了优化,以提供业界领先的执行效率。它支持主流的 Transformer 类模型,提供了优化的内核,实现了高性能的张量并行与流水线并行。同时,TensorRT-LLM 也在易用性上下足功夫,提供了类似 PyTorch 的 Python API,通过预定义模型与面向对象的方式简化了使用。
目前,TensorRT-LLM 以开源形式在 GitHub 上提供,其中 Python API 等大部分内容开源。这降低了用户的入门门槛,也便于基于现有实现进行扩展开发。在支持模型的广度与深度、执行效率、易用性等多个维度,TensorRT-LLM 都展现出业内一流的水准。它的出现将有效降低企业和研究人员部署大模型的难度,助力大模型架构在产业界的广泛落地。
三、大模型助力企业数字化转型
陈祖龙讲师带来演讲主题为《大模型+企业办公数字化实践》的分享。他是现任阿里巴巴企业智能算法负责人,在人工智能领域有着丰富的从业经验。陈祖龙讲师在演讲中表示,数字化转型已经成为企业发展的必由之路。一方面,国家政策和实际需求都在推动企业数字化;另一方面,数字化可以提升企业运营效率,为决策提供支撑。但是企业数字化面临数据复杂、业务复杂和评估难度大的三大挑战。
为此,阿里巴巴构建了面向员工和办公系统的完整数字化解决方案。在员工层面,通过智能小助手为员工提供所需服务;在系统层面,则通过智能文档解析、质量控制、权限管理等模块处理数据,并使用GPT生成数据提高查询理解准确率,采用 BGE 优化多文档排序等方法不断优化系统性能。
可以看出,大模型在理解非结构化数据、生成训练数据等方面发挥了重要作用,有效提升了数字化系统的智能化水平。陈祖龙讲师表示,未来数字化办公将呈现“信息化+机器人”的形态,数据与业务场景不断深度融合,大模型将推动企业实现数字化转型。
四、AIGC 颠覆出口跨境行业
本次活动也邀请到了朱强强讲师做名为《AIGC 如何改变出口跨境行业》的分享,朱强强讲师是爱创作的人工智能联合创始人,长期致力于将AI技术应用于内容制作领域,在该领域积累了丰富的实战经验和独到的专业视角。
朱强强讲师指出,AIGC 工具为出口跨境企业带来了翻天覆地的变化。在产品设计上,Midjourney 等工具可以通过文字描述快速绘制产品设计草图,这为中小企业解决了设计难题;在电商运营上,ChatGPT 可以深入理解海外市场,以及模拟用户反馈来优化决策;在品牌建设上,AIGC 可以高效生成创意设计和文案,提升品牌实力。可以说,AIGC 将持续渗透到出口企业的各个领域,成为标准工作流程的一部分,并将帮助更多企业实现产业升级。
AIGC 的出现给出口跨境企业带来了翻天覆地的变化。从产品设计到品牌运营,AIGC 提高了工作效率,降低了成本,实现了本土化市场的深入理解。可以预见,AIGC将持续渗透到出口跨境企业的各个领域,成为标准的工作流程。
五、总结和展望
本次技术分享会聚焦大模型技术的发展前沿,以及 AIGC 在实际业务中的应用创新实践。四位业内专家从理论和实践两个维度进行探讨,内容丰富,对行业发展提供了宝贵思考。相信大模型作为AI的重要趋势,必将产生深远的技术和商业影响。让我们继续关注其产生的更多可能性!
掘力计划
掘力计划由稀土掘金技术社区发起,致力于打造一个高品质的技术分享和交流的系列品牌。聚集国内外顶尖的技术专家、开发者和实践者,通过线下沙龙、闭门会、公开课等多种形式分享最前沿的技术动态。