一、什么是虚拟数字人
数字人,英文名“digital human”,“meta human”,也叫“AI虚拟数字人”,通常是指运用数字技术创造出来的,与人类形象接近的数字化人物形象。狭义观念上的数字人是信息科学与生命科学融合的产物,是利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真。其包括四个交叉重叠的发展阶段,可视人、物理人、生理人、智能人,最终建立多学科和多层次的数字模型,并达到对人体从微观到宏观的精确模拟。广义的数字人是指数字技术在人体解剖、物理、生理及智能各个层次、各个阶段的渗透。需要注意的是,数字人是正在发展阶段的相关领域的统称。数字人是多模态人机交互系统,可以帮助品牌客户打造有智能、有形象、可交互的“数字分身”,并逐渐实现数字人IP打造。
二、数字人相关政策
2022年以来,数字人相关政策相继出台。2022年8月,北京市经信局发布的《北京市促进数字人产业创新发展行动计划(2022-2025年)》,成为国内出台的首个数字人产业专项支持政策。计划提出,到2025年北京市数字人产业规模突破500亿元。培育1-2家营收超50亿元的头部数字人企业、10家营收超10亿元的重点数字人企业。突破一批关键领域核心技术,建成10家校企共建实验室和企业技术创新中心。在云端渲染、交互驱动、智能计算、数据开放、数字资产流通等领域打造5家以上共性技术平台。在文旅、金融、政务等领域培育20个数字人应用标杆项目。建成两家以上特色数字人园区和基地。
目前,国内已有30多个地市出台相关支持政策,其中大部分为引导型,主要引导方向为技术自主化,打造数字人自主产业链、产品工具化,培育一体化、自动化、批量化的数字人开发工具,以及鼓励企业探索产业应用。
据IDC发布的《中国AI数字人市场现状与机会分析2022》报告,预计到2026年,中国AI数字人市场规模将达到102.4亿元。可见AI数字人前景之广阔。政府部门也不例外,数字人在政府部门的应用中可以帮助政府提高工作效率、降低成本、提升服务品质,为公民提供更加便捷、高效、优质的服务。
三、数字人技术
如果好看的外形是数字人的“名片”,那么AI将成为数字人的“内核”。AI赋能数字人,能实现从文本生成、音频生成、图像生成、视频生成等跨维度升级。已有的数字人市场,AI技术几乎渗入到数字人外形构建的各个基础环节,呈现出肉眼难辨的数字人分身。
但在数字人“内核”方面,AI的介入如何让其生产成本进一步降低?我们尝试过使用天云数据AIGC虚拟数字人,利用生成式AI技术轻松将文档转换成数字人视频,人物创建后输入文字脚本即可AI生成语音,并驱动角色的表情和嘴型,让视频讲解更有表现力。克服了传统合成方法成本高、速度慢等缺点,不仅可以生成逼真、自然的数字人,而且通过一站式的开发流程还可以快速生成大量的数字人视频,提高数字人视频制作的效率和产出。
天云数据AIGC虚拟数字人将文本、图片、音频、视频通过AI技术自动生成视频内容,流水线化地完成数字人生产及数字世界的灵魂表达。视频主要由背景、素材、字幕、虚拟主播以及语音五部分组成。其中涉及的主要技术有文本摘要(Text Summary)、语音合成(Text2Speech)、图片推荐(Text2Image)、虚拟主播(Virtual Anchor)和视频合成。
(一)文本摘要技术
文本摘要技术是虚拟数字人视频创作的第一步。该技术主要用于从大量文本中提取关键信息,将其精简为简短、具有吸引力的摘要。在这个过程中,自然语言处理和信息提取技术扮演着重要角色。通过文本摘要技术,我们可以快速了解文本内容,从而为后续的视频创作提供有效的素材。摘要可分为抽取式和生成式两种方式。
(二)语音合成技术
语音合成技术是虚拟数字人视频创作的第二步。该技术主要用于将文本转化为语音,让计算机能够像人类一样发出声音。语音合成技术依赖于声学模型和语言模型,其中声学模型用于生成声音,语言模型用于将文本转化为声音。
通过语音合成技术,我们可以为虚拟数字人提供自然、流畅的语音。文本转语音,目前流行的技术主要包括两步走策略,即文本->梅尔频谱->声纹;以及端到端的方式,文本直接到声纹。天云数据采用的是第二种端到端(End2End)的方式。
(三)图片推荐技术
图片推荐技术是虚拟数字人视频创作的第三步。该技术主要用于根据文本内容推荐合适的图片,以增强视频的表现力和吸引力。图片推荐技术依赖于自然语言处理和图像处理技术,其中自然语言处理用于理解文本内容,图像处理用于搜索和推荐相关图片。通过神经网络收取映射文本与图片特征,计算图片相似度得分,自动推荐靠前得分的图片。通过图片推荐技术,我们可以为虚拟数字人提供生动、形象的背景图片。
(四)虚拟主播技术
虚拟主播技术是虚拟数字人视频创作的核心部分。该技术主要用于创建一个逼真的虚拟主播,能够在视频中像真人一样进行播报。虚拟主播技术依赖于计算机视觉和深度学习技术,其中计算机视觉用于捕捉和跟踪主播的动作和表情,深度学习用于模拟主播的语音和行为。通过虚拟主播技术,我们可以为虚拟数字人提供生动、自然的播报表现。通过人脸生成、表情迁移、唇型驱动等技术生成栩栩如生、表情动作丰富的主播。
(五)视频合成技术
视频合成技术是虚拟数字人视频创作的最后一步。该技术主要用于将所有元素——背景、素材、字幕、虚拟主播以及语音合成最终的视频。视频合成技术需要处理各种不同的数据格式和分辨率,以确保最终的视频质量达到预期效果。通过视频合成技术,我们可以生成一个完整、生动的虚拟数字人视频作品。
综上所述,虚拟数字人视频的创作过程是一个集成了多种技术的复杂过程。从文本摘要到语音合成、图片推荐、虚拟主播以及视频合成,每一步都为最终的视频作品提供了关键的贡献。这些技术的完美结合,使得虚拟数字人视频成为了一种独特而富有创意的表达方式。
天云数据AIGC虚拟数字人将文本转换为语音并添加字幕,使用虚拟主播技术生成主播视频,使用图片和视频库中的图片作为背景素材,最终将各个素材有机地结合在一起,高质量地生产虚拟数字人。并可以实现一站式开发,通过对现有流程的分析和优化,减少冗余和浪费,提高效率和质量,使流程更加完善和高效。并且将多个流程整合到一个系统中,让用户可以在一个平台上完成多个步骤,以提高用户体验和效率。同时,系统通过数据分析和挖掘,优化流程的各个环节,以实现更好的效果和更高的效率。
天云数据AIGC虚拟数字人通过“数据+数字人”的方式自动生成视频,整体将物理世界人的主观能动性、感染力映射到虚拟的平行空间,通过授权让虚拟人在数字化世界里表达,让美丽的皮囊拥有有趣的灵魂。
四、虚拟数字人在政府的应用
虚拟数字人作为数字世界的重要内容单元,原来其制作和推广需要大量的的人力、物力和财力。而AIGC(AI生产内容)模式为虚拟数字人的制作提供了全新的内容范式,能够显著降低制作成本,同时赋予虚拟数字人丰富且个性化的特征,拓展其实际应用范围。
通过数字人视频合成系统,政府可以快速、高效地播报各类资讯,提高效率和降低成本。此外,根据政府的多样化需求和个性化喜好,可以创建不同风格的虚拟数字人用于政策发布、官方信息、政务服务等常态化信息宣传。也可以在政府官网打造“政府数智空间”,有效利用媒体融合传播新优势,提升信息发布的权威性和影响力,为政府政策实施提供强有力的舆论支撑,树立服务型政府的良好形象,助力首都高质量发展。
虚拟数字人的应用不仅能够传播正能量和科学知识,还能激发民众的好奇心和学习兴趣,为社会文化带来新的贡献和价值。因此,虚拟数字人在政府部门的应用具有重要的意义和价值,值得进一步推广和应用。
五、虚拟数字人的安全
未来,虚拟数字人将在政府部门中发挥更加广泛的作用,在智能客服、公共安全、城市管理等领域提供更加高效的服务。同时,我们也需要关注和解决数字人应用中可能出现的问题和风险,确保其公平、安全和可持续地发展。例如,在数据隐私和安全方面,需要确保数字人的数据采集和使用符合相关法律法规和隐私保护原则,防止数据泄露和滥用。在智能化决策方面,需要确保数字人的决策过程公开、透明和可解释,避免出现不公平、不准确的决策结果。在道德和法律方面,需要遵守相关道德准则和法律法规,确保数字人的行为符合社会伦理和法律规范。通过解决这些问题和风险,可以确保数字人在政府部门的应用能够发挥更大的作用,为公民提供更加优质、高效的服务,推动社会进步和发展。