药物研发是一个非常昂贵和耗时的过程。大模型能够更好地融合人工智能算法与药物领域专家知识,从而为基于人工智能的药物发现(AIDD)提供了新的研究范式。大模型在药物分子建模和性质预测的一系列任务上,表现出了比现有的深度学习模型更为卓越的性能,具有广阔的发展空间。AI大模型也将深刻影响制药行业的发展路径,为药物研发领域的进步提供强大助力。
2023年5月26日,百度智能云、NVIDIA联合智药邦,在《中国AI药物研发大会》期间推出《AI+大模型,生命科学的智能化进阶之道》专场。邀请业内重要专家,围绕AI大模型给生物医药领域带来的机遇和挑战、大模型技术在生物计算及药物研发领域的应用、优化数据挖掘算法和算力GPU平台、AI大模型在制药行业的落地应用进行深入探讨,助力促进AI与大模型在药物研发领域向更高效、更智能的方向迈进。
专家分享环节,来自百度智能云、英飞智药、之江实验室、NVIDIA、智慧芽五家企业的专家分别带来了主题分享,以下是专家观点摘录:
【百度智能云生命科学行业解决方案总监 徐强】
AI大模型与生命科学领域融合发展,给药物研发领域带来了更多业务范式的改变。百度智能云生命科学行业解决方案总监徐强从四层架构分别介绍,第一层是百度提供AI大底座,包括AI IAAS和AI PAAS能力,第二层是百度提供文心千帆大模型工具链平台,为企业提供先进的生成式人工智能全流程工具链平台,包括数据管理、模型训练、推理、部署、集成等模块,第三层是百度提供生物计算平台PaddleHelix,包括小分子,蛋白/多肽,mRNA药物研发,第四层是百度提供GBI Bot数据服务能力。
北京大学研究员/英飞智药创始人【裴剑锋】
裴剑锋教授认为,AI大模型的发展为药物研究提供了很多新的可能性,但是其技术与药物研究的结合仍然面临不少挑战。如生物体系的高维复杂性导致药物开发的难度极大、化学空间过大从而导致现有化合物和药物对化学空间和药物空间的覆盖严重不足、药物研发的数据严重不足、基于结构的药物设计(二元体系)进展很小、强化学习等算法难以用于药物设计、 FIC研发不足以至于近邻空间 me too药物开发富集等。因此,为了提升药物研发的效率,我们需要继续研发更好的通用人工智能。
之江实验室图计算中心副主任【陈红阳】
陈红阳教授认为,传统的“不同任务不同模型”的模型构建模式逐渐向“一个大规模的多任务预训练模型(AI大模型)”进行转变。大模型发挥着“智能生产者”的基础性作用,促进产业新范式的形成,在海量计算能力的支撑下,能够产生高质量的智能力量,服务于各种AI应用,并处理各特定领域的任务。例如运用AI大模型研究帮助提升药物相互作用、分子生成和分子性质预测等任务的效果,助力药物研发。其研究团队提出基于路径感知的孪生图神经网络 PSG 算法,利用多次中继路径采样,生成多条中继路径感知的药物间最短反应路径距离的边特征张量,融合孪生图神经网络进行图表示学习和图对比学习,从而提高药物-药物反应关系的预测准确度。
【NVIDIA资深解决方案架构师 张玮东】
大语言模型在生命科学领域有着广泛的应用,包括蛋白质结构的预测、药物的发现。英伟达资深解决方案架构师张玮东介绍了加速大语言模型训练推理的框架Nemo Framework,以及在生科领域的大语言模型的框架BioNemo,并表示:BioNemo提供了最先进的生成式AI模型,能够大大加速药物发现的早期阶段。
【百度生命科学解决方案架构师 马罗亚】
介绍了百度生命科学行业布局及解决方案。其中,百度基于文心大模型,深入生命科学行业,推出螺旋桨系列产品,为药物研发、基因检测等提供算法工具,在蛋白质结构预测、mRNA序列优化、虚拟筛选、ADMET预测等方面具有较强优势,可作为药物研发阶段重要工具,加速药物研发进程。
【智慧芽全球生物医药产品总监 裴立东】分享了智慧芽在生物制药领域利用大语言模型探索垂直行业应用场景,从点到面逐渐实现数据+产品+AI技术的融合,极大提升新药研发、立项人员获取信息的效率,赋能新药研发创新。
会议的圆桌讨论环节,由裴剑锋教授主持,专家们围绕“生命科学的数字化、智能化转型”进行讨论。各位专家一致认为,一个大行业的转变,需要从算力、数据、人才等多方面进行部署,目前我们仍处在比较初级的阶段,还需要时间积累。对于大模型,目前虽然比较火爆,但在具体行业上的应用也在起步阶段,大模型的优势是具有极高的关注度及起点,百尺竿头更进一步,我们需要更多的基础研究,以大模型作为基准,继续深入,发展所在的行业。
未来,百度智能云将继续依托自身在数据、AI、平台等方面的优势,深入生命科学领域的新药研发、基因测序等更多场景,并充分大会自身在AI、大模型领域的技术与实践优势,与科研院所、产业链企业深入合作,加速生命科学智能化发展。