本文梳理了视频生成技术的发展阶段和主流模型,分析了影响模型应用能力的关键因素、市场上的主流产品及商业模式,并提出在进行商业化落地时,来自易用性、可控性、合规性三个方面的挑战。
今年以来,随着人工智能技术不断实现突破迭代,生成式AI的话题多次成为热门,而人工智能内容生成(AIGC)的产业发展、市场反应与相应监管要求也受到了广泛关注。
本文梳理了视频生成技术的发展阶段和主流模型,分析了影响模型应用能力的关键因素、市场上的主流产品及商业模式,并提出在进行商业化落地时,来自易用性、可控性、合规性三个方面的挑战。
‖图1:视频生成技术发展的关键阶段来源:易观智慧院
一、技术发展的关键阶段
视频生成的技术发展可以大致分为图像拼接生成、GAN/VAE/Flow-based生成、自回归和扩散模型生成几个关键阶段,随着深度学习的发展,视频生成无论在画质、长度、连贯性等方面都有了很大提升。但由于视频数据的复杂性高,相较于语言生成和图像生成,视频生成技术当前仍处于探索期,各类算法和模型都存在一定的局限性。
图像拼接生成阶段:在早期阶段,视频生成主要基于图像-图像技术,通过将每一帧静态图像拼接成一个连续的视频流。利用图像拼接合成视频的方法较为简单易用,但缺点是生成的视频质量低、连贯性较差。
GAN/VAE/Flow-based生成阶段:随着机器学习技术的发展,生成对抗网络 (GAN)、变分自编码器(VAE)以及基于流的模型(Flow-basedmodel)开始被用于视频生成任务,这个阶段的发展主要集中在改进模型训练和生成算法,由于对视频直接建模的难度很高,一些模型通过将前景和背景解耦、运动和内容分解等方式生成视频,或是基于对图像的翻译来改进生成效果,以加强连续帧之间的平滑过渡,但总体效果上生成视频的质量仍然较低,难以实际应用。
自回归和扩散模型阶段:随着Transformer、StableDiffusion在语言生成、图像生成领域取得的成功,基于自回归模型和扩散模型的视频生成架构逐渐成为主流,自回归模型可以根据先前的帧来预测下一帧,视频较为连贯自然,但存在生成效率低且错误易积累的问题。一些研究将扩散模型在图像生成研究成果成功迁移到了视频生成中,通过对图像生成架构的改进使其适应视频生成任务,这种方法的优点是生成的视频具有高保真的效果,但相应地也需要更多的训练数据、时间和计算资源。在这个阶段,视频仍然不可避免地出现跳帧现象,以及内容表现的逻辑性欠缺等问题。
二、影响模型应用能力的关键因素
‖图2:影响模型应用能力的关键因素 来源:易观智慧院
视频生成任务的特点在于其所包含的画面信息多、复杂程度高、动作随机性强,还需要考虑空间、时间等因素,另外由于人眼对画面伪影非常敏感,人物的动作细节是否连贯直接影响着视频的生成效果,然而这些因素也使模型性能面临着不小的考验。在实际应用中还需要更多地考虑来自不同行业、不同场景的用户需求,因此视频生成的可控性、逼真度、连贯性是影响应用能力的关键因素。
1.可控性
对视频的可控性要求主要包括是否能够生成任意长度的视频、能否根据用户需求进行时长调整、与给定的文本和图像的关联性是否足够强、视频属性和视频中的元素是否可控可编辑,这需要提升模型对长文本理解的能力,并且在时长增加的同时需要保证生成速度和画面质量的稳定。特别是对影视、动画、广告等视觉制作领域的行业用户而言,可变可控是视频生成深入行业应用的基础。
2.逼真度
视频的逼真度主要取决于画面质量和内容逻辑,不仅需要视频具有高分辨率,场景和人物具有真实感、艺术性,能够展现清晰丰富的画面细节,还需要连续帧之间、文本-视频之间保持高度相关性,使视频内容中所表现的故事情节、物体关系、运动状态等符合基本逻辑。
3.连贯性
连贯性也就是视频的丝滑程度,包括帧之间的过渡效果、动作的连续性、画面的流畅性、场景的平滑切换等。视频生成本质上就是生成一串连续的图片,因此需要保证生成的连续帧之间在时空上的连贯,避免出现画面模糊、抖动、伪影等问题。
三、典型产业应用场景
与视频生成相关的典型应用场景包括视频内容识别、视频编辑、视频生成、视频增强、视频风格迁移等,目前视频属性编辑相关的应用逐渐成熟,但视频生成距离精细化控制还存在一定差距,尚未形成产业规模化应用的能力,未来随着生成效果的提升,在很多行业中将具备广阔的应用前景。
1.视频内容识别:对视频中的物体、
人脸、场景等元素进行识别分类,可以应用在交通、安防领域进行视频检索、视频分类、目标检测跟踪、异常事件识别预警等,增强监控和交通管理的智能化水平;在社交媒体、营销服务领域可以进行内容标签生成、情感分析等任务;另外还可以帮助影视工作者进行人物分类、场景分析、镜头分析等,提高电影电视的制作效率和质量。
2.视频编辑:包括对现有视频进行自动剪辑、拼接、合成、特效处理、添加音效字幕等操作,从而达到更好的视觉效果。在影视制作领域,后期剪辑工作往往需要对视频进行逐帧处理,需要消耗大量的人力和时间,视频编辑能够辅助进行人物抠取、改色、消除或替换视频中的部分画面元素,提升剪辑师、特效师的工作效率,显著降低后期制作成本;在短视频领域,能够帮助个人创作者进行素材剪辑、特效添加,快速制作出更有创意的视频内容。
3.视频生成:根据给定的文本描述、图片、视频等,自动生成符合场景需求的视频内容,应用在视觉制作行业可以有效实现降本增效。例如生成电影、电视剧、游戏中的虚拟场景、角色、特效等,或是根据原始影片生成电影预告片,根据产品文字介绍生成视频广告等。另外,视频生成也可以应用在医学领域,辅助生成动态人体结构、疾病模型等,用于医学教育和研究工作。
4.视频增强:包括对视频进行色彩校正、去噪、锐化、超分辨率等处理。在影视和广告制作过程中能够对视频画质、色彩、对比度进行调整,特别是能够应用在对老电影、珍贵影像资料的修复工作中,提升视觉效果和研究价值。在安防监控领域,视频增强可以提高监控画面的清晰度、减少噪声,有助于提高监控系统的效率和可靠性;应用在医疗领域可以提高医学影像的质量,辅助进行微创手术、远程诊疗、手术培训等。
5.视频风格迁移:根据给定的文字描述或参考图,将原始视频转换为指定的不同风格,例如将真人视频转换为油画、素描、动漫等风格,或是进行黑白-彩色转换,日间-夜间转换处理,可以帮助影视工作者根据作品主题和情节需要快速调整风格,提高影视作品的艺术性;在广告制作领域可以根据产品定位进行风格转换,使其更加符合目标受众的偏好。
四、市场主流产品及商业模式
1.海外市场情况
目前,海外主流的视频生成工具主要来自Adobe、谷歌、Meta等科技巨头,以及Runway这样的人工智能创业公司。
Adobe作为老牌的科技公司,Adobe在视觉制作领域拥有广泛的用户基础,能够满足行业用户精细化视频编辑要求。
近期,Adobe宣布将Firefly引入其视频制作软件PremierePro和AfterEffects中,可以看到其正在加快将生成式AI作为工具嵌入到自有产品中,来增强Adobe全家桶的使用体验。
凭借在视觉制作领域的专业性,现阶段Adobe面向B端专业用户群体的地位暂时难以撼动,而将AI能力全面搭载到Adobe产品体系中,提供便捷程度高、兼容性强的云化服务将有利于Adobe沉淀行业用户数据构建生态闭环,在未来继续保持其市场竞争优势。
Runway则一方面通过不间断地研究和迭代保持自身处于AI技术能力前沿,同时Runway将30多个自研AI生成工具集成到其WEB端,意图打造自己的云端视频编辑工作流,构建起模型+应用一体化的商业模式。
目前,Gen-1提供有限次数的试用后采取付费订阅模式,Gen-2目前尚未正式开放,需要通过Runway在Discord社区申请内测。
Runway面向C端用户已上线搭载Gen-1手机版的视频生成APP,支持文本生成视频,以及根据指定图像对手机实时拍摄的视频进行风格转换,但使用效果与其他轻量化的视频剪辑工具相比并没有突出亮点;而从Runway参与奥斯卡获奖影片《瞬息全宇宙》特效制作的成功经验来看,未来随着Gen-2能力的成熟,面向B端专业客户提供视觉定制化服务,也将是Runway利用其技术优势实现商业化落地的有效手段。
谷歌已经发布的两款视频生成工具ImagenVideo和Phenaki,将模型能力分别专注在对视频画质、视频时长的提升上,以满足不同场景的应用需求,其中ImagenVideo支持生成分辨率为1280×768像素,每秒24帧的高保真度视频,Phenaki则支持根据一段较长的文字故事生成2分钟以上的视频;Meta发布的视频生成工具Make-a-Video支持文本生成视频、将单帧图像扩展为视频、为视频添加细节以及视频风格转换等任务。但目前这三款工具尚未开放测试,成果主要体现在论文和演示视频中,其实际商用可能性还有待时间验证。
2.中国市场情况
中国市场在AI视觉制作领域的参与者主要包括字节跳动、快手科技等短视频领域头部厂商,百度、腾讯、阿里等大型云厂,以及智谱华章、万兴科技、影谱科技等AI科技公司和视觉创意公司。随着视频生成的技术发展,视频制作的门槛将进一步降低,这也为中国视频内容生产行业实现用户增长带来了新的机会。
字节跳动、快手科技均通过在短视频领域积累的庞大用户数据来沉淀技术能力,提升视频剪辑产品的使用体验,对于新媒体从业者、短视频平台主播、vlog创作者等有轻量化的视频制作需求的C端用户具有明显优势,在各自用户圈层中能够保持较好的用户黏性。
其中,字节将剪映高度嵌入抖音的工作流体系,支持多端同步和云备份,目前剪映的盈利手段主要来自广告合作、售卖视频模板和视频制作课程等。面向B端用户打造的视频智能处理平台可以进行画质增强、画质修复、音频降噪、影视化后处理等工作,能够通过原子能力加速视频生成和分发;快手除了面向C端的视频剪辑产品云剪,其利用C端打磨的技术和经验已经开始向B端拓展,并推出了视频云品牌Streamlake,对行业用户开放视频生成相关任务的模块化能力。
百度将文心大模型能力引入视频生成领域,百度云智能创作平台提供根据图文进行视频合成、视频剪辑、音视频对齐等服务,而围绕文心大模型构建开放生态,沉淀行业用户数据,保持在生成式AI的技术前沿是百度在AIGC领域领跑的关键。
阿里云的视觉智能开放平台聚焦向视觉智能技术企业输出能力,并借助达摩院的开发者社区加速模型的优化迭代,开放平台涵盖视频生产多种下游任务,支持部署在不同平台的客户端,能够帮助行业用户搭建自己的AI应用场景。
腾讯智影面向个人和企业用户提供全链路的视频创作服务,以及数字人主播等特色功能,提供免费版和多种付费订阅模式,目前已上线小程序版本,后续若持续提升智影在手机端剪辑、分享视频的便捷体验,将有利于依托微信用户的高活跃度在短视频领域形成差异化特色。
智谱华章则基于模型及服务(MaaS)理念,围绕自身技术优势来打造AI通用能力,向行业用户提供精调的定制化模型服务解决方案。
目前,文本视频生成模型CogVideo采用完全开源模式,可以支持中文文本输入,但模型仍处于研究试用阶段,其实际应用能力和与场景的适配性值得后续关注。
五、前沿探索与趋势展望
大模型的持续演进带动了生成式AI能力不断进化,在语言生成、图像生成领域创造了令人惊喜的效果,而视频的高维数据空间属性使其研究更具挑战性。目前视频生成方面的探索主要聚焦在高分辨率视频生成、针对超长文本的视频生成、生成无限时长的连贯视频等课题,并基于文生图模型的研究成果,将其引入视频生成模型对性能进行优化。
例如,英伟达和康奈尔大学的一项研究提出了视频潜在扩散模型,并在驾驶视频合成的训练任务上取得了很好成绩,随着我国基础通信技术的发展,视频制作的云化是产业发展的必然趋势,下阶段视频制作的多端同步、多人在线协同创作的需求也会随之增加,生成式AI能力将进一步融入脚本创作、视频剪辑、渲染、特效等视频制作的全流程。
现阶段,视频生成还有很大的潜力尚未挖掘,模型性能与产品化落地之间也仍然存在着不小的差距。
但随着大语言模型、图像生成等相关技术的快速迭代,有望为视频生成技术带来新的解题思路,而视频工程化能力也将为视觉制作产业链带来效率和模式上的巨大变革。(文︱陈晨 易观智慧院高级分析师)