2月9日,由微博、新浪新闻打造的《新智者Talk》与新智元合作推出第四期访谈内容。在本次访谈中,新智元创始人杨静作为嘉宾主持人,与英伟达中国区Omniverse负责人何展一起以对话形式分享了生成式AI(AIGC)的应用方向、行业现状及其未来对现有产业链的影响等AIGC领域热门话题。
访谈开始时,两位嘉宾从人工智能生成内容(AIGC)的“出圈”作品开始谈起,例如《杀死那个石家庄人》AI自动生成的MV、晚会中震撼的舞台视觉效果等。何展由此出发,回顾了AICG应用及技术发展的历程,指出当下各类AIGC应用都在以极快的速度迭代,年轻人应当拥抱AIGC,加强自己的能力,扩展AIGC的应用边界。
提及AIGC爆发背后的技术逻辑和产业逻辑时,何展表示,生成式AIGC的工具能够全方位降低技术门槛,在内容生产等领域成为生产力的基础。相关技术能够带来贴近生活的应用,例如一键生成房间背景、3D模型设计等,降低制作链条末端枯燥重复工作消耗的人力。这类行业应用将改变产业逻辑,让专业的人有精力去做专业的事。
杨静表示,在视频等领域,AI生产的内容已经开始大放异彩,并畅想未来普通人能够借助AI更容易地生产视频内容,进而激发更大创作热情,出现更多大众作品。针对这一想象,何展表示,目前AI生成内容比例非常低。他认为,未来生成式AI不会完全取代人的创作,因为不同的人有不同的知识背景、不同的经验,因而有不同的理解。所以何展认为更好应用前景应该是AIGC辅助人做事,提升生产效率,而非替代创意。
在后续的交流中,两位嘉宾还提及了万物识别、简笔画生成图像、小说创作等AIGC可能的应用领域,并对未来提出展望。两位嘉宾一致认同,无论未来生成式AI发展到如何惊艳,最终进行输入的还是人,而生成式AI是给年轻人的想象力插上行星级的翅膀。
以下是“新智者Talk”对话实录,内容经过编辑略有删减:
杨静:大家好,欢迎大家来到新智者Talk第二期的现场,今天的主题是生成式AI大爆发。我是新智元创始人杨静,今天来到新智者Talk演播室的嘉宾也是我们的老朋友英伟达中国区Omniverse负责人何展先生。
何展:大家好,我是何展,非常开心参加本次活动,谢谢大家。
杨静:今天也是我们阳康以后的第一次见面,我们筹备这个节目已经很长时间了。其实刚才何展先生也给我说,那最近这个生成式AI已经经历了几代的迭代和进化,可以说它进化的速度比我们筹备节目的速度还要快。
何展:对。
杨静:那么2022年其实我们人类在我们卷来卷去的时候,这个AI在悄悄的进行进化,这个进化其实就是生成式AI的大爆发。在进化期间有几个火爆的现象,有一个国内知名的摇滚乐队叫万能青年旅社,它有一个作品叫做《杀死那个石家庄人》,这个视频就在B站火出圈了,因为这首歌的每一句歌词都被AI配上了画面,是AI自动配的,这个就非常让人感到新奇。
第二个就是说在美国有一个游戏设计师,他用AI画了一幅画,然后用这幅画去参加了艺术类比赛,竟然得到第一名。这个也是人类有史以来第一次AI打败了人类自己的画作。
还有,这些现象背后是我们英伟达的Omniverse也强势着迭代,所以用户就可以很方便的用数字化来实现这个数字孪生和虚拟数字人的制作等等,就为元宇宙的构建夯实了基础。我们其实就要问了,在这样快速,实现了这么强势的迭代的背后,这一轮生成式AI的浪潮当中人工智能生成内容也就是AIGC背后是什么算法支撑的?那它对算法和算力有什么要求,年轻人又怎么能冲浪耍酷呢?
何展:谢谢杨静总的提问。我觉得尝试从几个角度和您一起聊一下这几个问题的我们的一些想法。
首先就是我们叫AIGC也好,叫生成式AI也好,大家看这个概念的时候不要觉得有多么的神秘感,我给大家分享几个时间线上的一些历史,可能大家就很好理解。
在1957年,当时就人类的第一手就是由人工智能创作的乐曲开始弦乐式重奏,那个是1957年就做出来了那个叫《伊利亚克组曲》。
杨静:都快70年了。
何展:我们把时间又一下推到07年,我记得是纽约大学出了就是完全是由人工智能做出的一本小说,虽然里面逻辑有各种错误,各种不清晰的情节和剧情,但是它是第一个全部由AI完成的,这样一个小说作品。
然后我们再谈一个时间点就是2014年,GAN,就是生成式对抗网络。
所以我想这三个时间点,就恰好是生成式AI或者是AIGC这样的一个不同的迭代阶段,大家注意到这样的现象,第一个阶段从最开始最开始有很多计算机学者开始创作作曲,到最后我们出现了第一本人工智能的书,花了50年时间,但是从第一本完全由人工智能生成的小说,到出现GAN网络只需要7年时间,我们再往下说最近的尤其是半年时间,我们看到了如雨后春笋般,比如说我们听到的DALL-E12做这个文本生成图片的,还有mid journey这种作画的,然后下半年出了很多比较精彩的像stable diffusion,所有的这些真的是用一周两周的时间在迭代,非常快的迭代,就像你说我们在经历生活中的这种变化的时候,人工智能也在这个世界发生天翻地覆的变化。我想说的就是你的问题就总结一下,我觉得它是有深度学习的技术的这个快速的迭代,包括刚才提到2014年GAN的生成,或者是对抗网络的发行,这些绝对是大幅的加速了生成式AIGC技术的发展。
我们现在看,其实学术界有很多不同的路径,有GAN,现在开始从扩散模型,diffusion,这个扩散模型包括之前的transformer大模型训练的这个兴起,真的是加速了,所以这个是推动力,还有你刚才问的问题我们年轻人怎么在这里面去看到,我觉得让人遐想无限,因为很多工作大家可以看到,你只要是涉及到生成或者是做一些工作,设计这些有创意的内容在里面,包括刚才说到的AI写文章,作音乐,做后期的制作这些方方面面的应用,都可能会有这些给这个年轻人提供非常大的空间去开拓和发掘。
那我觉得年轻人在里面,就是拥抱这些变化,然后持续的迭代自己的这方面的能力,我觉得这是我们想跟你去分享的这些见解。
杨静:那么其实过去这半年的时间,人类卷来卷去,这个AI呢,其实也被卷到了舞台上,比如说2023年江苏卫视的跨年演唱会,这上面有一个超级明星叫邓紫棋,在她演唱的时候,身边就出现万丈波涛的红海两边,这个场景就是由AIGC的技术和AR技术来生成的,这个视觉呈现,是让我们中国的亿万观众,亿万年轻人都能亲眼看到这样的一个元宇宙的震撼。
据说,这个技术背后呢,也是有咱们英伟达的相关的这样一些黑科技作为支撑的,今天也请何展给我们现场做一个解密。
何展:这次看到了像你刚才提到的这个海水,像其他的一些特效,这些其实都是内容生成非常重要的应用方向,利用XR技术,然后结合了最新的AIGC生成的技术,让大家享受一个非常大的视觉的盛宴。这些技术有我们图形学的一些进步。
第二个就是我们在人工智能深度学习的加速算法的一些优化。我们的这个大规模训练模型来去迭代成型的这个效果,比如说海水,我需要大量的模拟,我需要更多的我们生成式AI里面需要的模型训练数据集,然后生成那么震撼的效果迭代到我们舞台上,让大家感到这个真的是欣赏美妙的歌声同时还能如身临其境,这个就是我们想要去看到的,这样的技术迭代出来的一些很好的结果和应用。
杨静:2022年是元宇宙爆发的一年,但是元宇宙还没捂热,AIGC这个新的概念,又像身上的火箭一样,红杉资本的合伙人甚至还跟GPT-3合写了一篇文章,就是像你一样预测AIGC将会形成一个数万亿美金的新赛道,那么为什么2022年AIGC会乘上这个新的火箭爆发,这个背后的技术逻辑和产业逻辑是什么,元宇宙和AIGC到底有什么异同呢?
何展:提到这个GPT-3,我就要提到背后的一些参数,GPT-3我没记错应该是1750亿个参数。
杨静:1700倍。
何展:当时已经发布的时候,被很多的学术界、开发者都已经惊呆了,我记得应该是一周前我也看到了一篇报道,就是预热了一下GPT-4要出,马上要开放给大家,据说是100万亿。
杨静:100万亿。
何展:其实都已经迈入百万亿参数的级别,那这个未来由它创作出的内容,或者是质量,会是什么样的,真的是值得期待。我觉得我们从GPT-3、GPT-4整个的和元宇宙的关系就看到,其实就是内容生产的,我觉得如果让我们的很多的元宇宙应用,快速的迭代发展,因为大家都认可它是初级的阶段,如果让它快速发展,就需要让每一个人尽量的去参与进来,那每个人参与了,就像我们之前聊我们的Omniverse平台,期待着想把技术门槛降低下来,让每个人能够用,创作出更多的作品,这个就需要快速生成的工具,不但要快还要好,还要成本低廉,这个就是今天我们讨论的这个话题,重点就在这了,生产力从哪来,就需要从生成式AIGC的工具,不管是世界上很多其他的公司,包括英伟达公司我们都在处理做,比如说我们在做像会议系统,比如说哪天静总我们一起做视频会议我们会有Maxine的算法,你肯定想去喝口水,想让对方看到你一直紧盯着屏幕,那我们算法就可以喝水的时候,我就可以校准出你的新脸。
杨静:我们写了一篇文章说假装你的眼神还在盯着这个,你的老板。
何展:是这个意思。
杨静:实际上是在摸鱼。
何展:对,其实这个背后都是相当于把你的人脸矫正成你的新的一张脸在面对屏幕,这个其实就是很有趣的一些应用。
比如说我们前几周我们做了一个很有趣的用户交流,他就想做一个比如说类似这样的一个直播间,或者说咱们自己的书房,书房上要放一些相框或者说艺术的,就可以输入,比如说大海、蓝天白云然后草坪,它就会在相框里生成出你想要的照片,然后就把你书房的设计的这些内容,自动的全部生成,这一类的应用,就不像舞台要求那么苛刻的,这个可以做到,而且在今天已经实现了。同样比如说你的书房墙壁的壁纸,你想要什么样的色调呢,你想要什么样的风格你都可以用这样的工具输入它,实时的生成效果你就可以看到。
杨静:一键生成?
何展:对。
所以今天我们看到这些技术的内容进步,就真的是已经把我们的个人的创作的欲望激发起来了,以前你真的要画油画一样,需要在软件上要画出来那些,但是现在让计算机去干吧,让AI去干吧,这个真的是实现了。
杨静:你说的这个还挺让人畅想的,因为我们现在微博上视频创作包括微信的视频号,这都是上千万甚至上亿的用户,有时候我也有一个视频号,如果能用你的AI来生成特效或者是生成一段视频的话,那肯定很多人就像你说的创作欲望会极大的激发,那这种是在2023年就能实现吗?
何展:刚好是分享你一个知名调研机构的报告,他说目前到今天我们的生成式AI的这个在人工智能的生成的比例值是占1%都不到,他预测。
杨静:这么低。
何展:2025年也就是两三年之后要达到10%,基本上已经很了不得了,然后他们又预测另外一个行业就是这个生物科学医疗,也就是它的药物和材料由人工智能生成的,占比可能到2025年要生成到达到30%,所以你可以看到不同的行业,不同的应用,它对于这些方面的需求是非常大的。
杨静:那么在林林总总的生成式AI技术当中,哪些能够成为杀手锏,你认为AIGC什么时候能真正的走向大众,成为超级的APP,哪些企业会有黄金的机会?
何展:我觉得更多的是我们所服务的这些应用它这些应用到底需要这些哪些杀手级的技术,这个是最重要的,比如说我举一个例子,设计水杯或者说一个电热水壶,我设计这个热水壶的时候需要3D软件把模型画出来,我现在就想偷偷懒、摸摸鱼,能不能找一个工具,那这个工具可能就从很多的大公司里面找到,我就可以去输入一个我说黑色的,然后比较复古的,然后热水壶,这样就生成出来,这个到今天是可以生成的,而且现在还有很多的据我了解,谷歌还有我们公司都做了生成3D模型的这种工具,比如说谷歌的dreamFusion我们叫Magic 3D,它就是输入一段文字然后生成这个。
那举的这个例子就是我的工作是不是需要这些,这些不管是产品设计还是文艺创作,它都会有对应的杀手级的应用,哪天爆发,我觉得这个东西只要是能够满足到设计师的需求或者是工程师的需求,它一定会发展非常快,这不是我个人的观点,据说2023年又是一个什么元年,就是这方面的元年。
杨静:AIGC元年是吧。提到AIGC元年,刚才何展先生也说了几个大厂包括谷歌、微软、Meta等等都在群雄逐鹿,那么在这个赛道上面也有很多新晋的独角兽,比如说OpenAI他们也粉墨登场,包括ChatGPT他们又投资了100多亿美金,国内的大厂BAT他们也在AIGC里抢跑,那么你来给我们分析一下哪几个玩家会成为生成式AI赛道上的领跑者,具体的巨头在AIGC技术和应用领域有哪些优劣势,明年实际上是今年2023年技术发展的最大看点在哪里?
何展:我刚刚在今天看到的最新的就是刚刚你提到的ChatGPT, 微软的CEO已经宣布要上公有云,这是一个新闻,第二个新闻是2023年科技十大预测,其中有一个就是你刚才提的问题里,就是我们的BAT我们国内的互联网大厂,一定会有一个类似于ChatGPT的模型出来。
杨静:有一个,那能预测一下吗,会是什么方向?
何展:这个我觉得不太好预测,我觉得他们肯定会往这个方向上,因为这个它一定会有很多落地的应用,这个它能够服务很多的不同的这些互联网大厂他们擅长的领域,大家可以看到,比如说阿里,它的这个在线的shopping,腾讯可能就是在社交等等这些方面,我觉得可遐想的应用太多了,我相信他们一定会在这方面着重投入的。
杨静:是,刚才何展先生也提到生成式AI,AI跟内容的融合更加紧密,比如说娱乐或者是电商或者是传媒、电视、影视这类的行业都已经实现用AI去助力视频的剧本创作,游戏场景的生成,数字人辅助带货,XR商品展示等等,比如说用几句话就能生成一个剧本,甚至用几段话就能生成一个短视频,生成一个小电影,那也许刘慈欣就会下岗,所以未来AIGC大规模的落地应用,会给产业链带来巨变,上游的数据供应方、算法机构、下游的内容创作分发平台,这样一整个的产业链,影响最大的环节是哪呢?
何展:我不知道你听说过最近网上尤其是视频号比较流行的一个爽剧,其实就是普通人作为演员,把爽文拍成短剧。
爽文生成爽剧然后拍出来,然后投放出来,有经济效益,那这个问题就来自于我生产力不足了,就像你刚才说的能不能做一个编剧,用AI来编剧,这个需求就来了。
我给你分享一下大概以前我们叫就是我们专业的这类的制作,就是制作人员大概在中国有10万人,那这10万人,科班出身,就是你刚才说的晚会里背后做的这种海浪这种非常专业顶级的制作人员,那这10万人其实相当于在制作整个链条的最末端,就是相当于他的作品被倒了很多手才真正的去成为在舞台上表演或者说在荧幕上出现的作品。
杨静:通过产业链很漫长。
何展:对,他们是属于特别辛苦,然后又没那么多的收益,然后整天都在用电脑来做很辛苦,那如何解放出来,其实我们不是说去让他们这些人去下岗,不会的,因为这些人即便是这些人,和普通人他们都用同样的AIGC的工具,他做的生成的结果都是不一样的,因为这个你也知道他科班出身就有这个灵感就知道输入什么,那这个我们看到就是说,如果像类似于爽剧这样的能够通过AIGC快速的生产,那就会带动一批人进来,然后专业的人做专业的事情,有很多我们技术门槛降低下来又会带动很多的人去做就是大众化的一些东西,那这个生产力起来了,自然而然就会有一个闭环,从制作到投放到有经济效益的这样的一个闭环所以我觉得未来不单单是编剧本,生成这个产品,然后生物医疗药物的研发,还有高教,等等这些行业都会去百花绽放。
杨静:那么您觉得就是生成式AI会给年轻人带来最大的机会是什么?
何展:我是特别积极乐观的,20年前我毕业的时候,那个时候我觉得更多的还是靠自己的比如说你去工作,那现在有很多这种科技的新的科技,我觉得年轻人应该更多的去了解它,然后把它为之所用,就像产业变革话题一样,会有很多新的工种或者说工作的方向,真的会出现,我们今天聊的这些技术,可能真的迭代会过几个月以后出现新的职业在中国我相信会有很大的空间,我觉得年轻人应该更多的去,像海绵一样,哪新的我就吸收进来,为我所用,我想做什么首先明确,然后我能用这些技术做什么,然后我再去做什么工作,这个就成为一个很好的就业的渠道了。
杨静:我先现场身临其境去做一个体验。AIGC在美术、音视频、还包括很多游戏的创作方面,都大显神通,相当于给每个普通人都赋予了一个像召之即来的神笔马良,那会不会有年轻人非常依赖这样的工具,也不用他的想象就生成了新的艺术品,这样的一种过程,会不会让年轻人丧失想象力呢?
何展:我可以坚定回答这个问题,这个一定不会丧失想象力。我举一个例子我们在去年在杭州做了一个设计周的活动,然后我们的技术人员把我们的一个就是刚刚你提到的神笔马良我们很多的用户管它叫神笔马良的这个工艺叫Nvidia Canvas相当于是什么工具呢,现场你可以拿画笔在这个画板上,左侧是你勾勒的曲线,右侧就通过你的一些输入来去生成就是计算机脑补生成一个,比如说这个画一个高山,那边是水,就生成这样的作品。
杨静:高山流水。
何展:对,就相当于几笔画,你画几笔,那边就生成一个真的是真实的照片级别这样的一个作品,这时候给我看到一个特别感动的画面是,每天有很多的用户去使用这个工具,这里我观察到一个细节,有很多小朋友画的话,甚至会比我们成人就在参展的要有想象力得多,小朋友非常聚精会神enjoy这个工具,那大人,就伴随着开玩笑的态度还有点羞涩的态度画这个,而小朋友会非常的认真对待这个事情,其实你看这截然不同的做法和输入,你看这个工具就是AI的工具,但是产生的作品截然不同,如果你的想象力非常集中某一件事情上,但是它不同的想象力的输入,会把这个作品达到的效果是不一样的,所有的这些科技迭代出来的所谓的工具,就是工具,你还是要离不开你的想象力,还有你的专注。
杨静:其实生成式AI可以激发人类的想象力,特别是年轻人,你的思想理念,思维框架没有被束缚住,也没有一个套路,所以说它其实更成为你的一匹骏马或者给你的想象力插上翅膀,所以年轻人正是需要这样一双翅膀能够飞向未来。
何展:总结一下就是大家不管未来出现很多特别让人惊艳的这个工具,但是最终的input还是你。
杨静:前几天我做了一个梦,梦见我同学送我一本相册,这个相册等于把我一生当中记得记忆的画面,活生生的用数字、图像呈现出来,就像一个活生生的一个生命册一样,那咱们的这个生成式AIGC的技术,未来能把人的一年、一生的影像自动生成一个虚拟的相册,比如说刚才的那个书架那个相册,比如说我们的微博或者是咱们的朋友圈都想做一个回顾,一天一天找这些记忆是很难的,如果我们AI可以回溯这些画面,自动的生成一个生命册的话多好,不知道能不能实现?
何展:我觉得问题不大,我不知道你用手机吗,有时候经常会推送你一个moment,逻辑都是这样的,你可以去把你的这个所有你自己个人的,过去这些年里的资料,作为input,然后输入生成,这个我觉得问题是不大的,那这个就是像你的要求是什么,温情一点的,是不是欢快一点的,生成的相集是什么样的情绪表达的。
杨静:其实我以前还挺感动,我养过一只狗,叫小豆豆,然后它有前年2020年,3年前就去世了,我看到有一个广告,它可以把这个广告,你要把很多的照片input给他,他会给你生成一个狗的宠物的一生的相册,但是我现在就觉得特别的麻烦,因为你还得找狗的画面,如果我们AI从图库里自动寻找,就可以生成它的图册,我相信肯定有很多人的需求。
何展:说着都有点感动了,这些是最著名的一些我们最开始的这个人工智能,万物识别,其实这类的我觉得是可以实现的,而且是不难的,我觉得这个肯定会越来越多的去,只不过现在的工具它进展整个的特别快,会越来越多走进我们的普通人的生活,我觉得真的这说说又出来一个新的行当,除非有人应用这些工具来做一个APP。
杨静:是啊,我觉得可能把很多人的这个记忆包括我们跟我们的伙伴,其实我们的宠物其实也是我们的伙伴,那我们最亲爱的这些亲人,他们也是我们就是我们命运当中好像软肋也好,把我们这些温情的部分,其实这个人性最大的资产,那么元宇宙未来除了何展先生提到爽文和爽剧之外,还会出现规模庞大的虚拟城市,还有很多个性相异的虚拟的明星,甚至不是人类这个物种,这种虚拟明星和真实明星他们的数字分身又可以生成新的数字相册和虚拟电影,也就有了无数的生命册,所以你觉得未来AIGC有能力生成一个新的数字行星、数字地球,甚至是包罗万象的数字元宇宙吗?
何展:这个都是皆有可能的,大家可以畅想一下,就是说所有的这些技术背后它推动的是什么事情,还是生产力的事情,那我怎么样去做什么事情,这件事情已经非常笃定了,大家现在的需求在这我有产品要设计,我有物品要生成,我有相册要去出版,要让大家回顾温情的时刻,这些需求都在的,它结合的就是这些技术背后,我就想做刚才回到的总结我要快,我要好,好就是让别人感动,比如说像相册,还有就是便宜,我点一下,几块钱,十几块钱,我就可以接受了这一部相册,所以这些呢都是往这个方向去努力的,我们觉得不久将来一定会见到这类的应用。
杨静:也就是黄仁勋老挂在嘴边的口头禅,saving money,所以又快又好又强,那么这样的一个生成式AI必定能够颠覆人类的未来。所以2023年就感谢生成式AI带我们跨越了红海,也带我们去回顾我们人生当中这种温馨的记忆。所以我们更加憧憬2023年生成式AI的大爆发,会带来一个斑斓多彩的世界,也带来一个充满无限可能有行星级算力的元宇宙,新的宇宙,谢谢大家参与,欢迎大家继续关注新智者Talk,我们下一期继续追踪,谢谢大家!
何展:谢谢大家。