一场突如其来的新冠疫情,加速人们对基因检测技术的利用。曾经略显陌生的“核酸检测”因为疫情的倒逼,成为见诸媒体频率最高的词汇。核酸检测以其快速和准确的优势,成为防控疫情的最佳利器。基因检测技术也迎来快速发展的最佳契机。
外部政策上,2015年起,我国就已经启动精准医疗计划,而基因测序就处于最核心的位置。这几年随着大数据技术的发展,生物医药领域在大数据的加持下,涌现出多种创新性应用场景,全方位加快药物研发、完善罕见病诊治闭环,进一步推动精准预防和治疗的实现。
从市场环境来看,近几年,更多基因行业的研究机构和企业在算力的提升上加大投入力度,着力于发展支撑基因测序发展的HPC(高性能计算解决方案)。一直以来,HPC都处于计算产业金字塔的塔尖位置,它能够应对当下丰富场景下的多样化计算需求,在基因制药、航空航天、石油勘探等领域发挥越来越重要的作用。
多样性计算塑造未来,基因产业在HPC的助力下,正乘势而起。
按场景需求灵活调用算力,HPC助力基因检测高效处理大数据
基因检测随着基因测序成本的降低被广泛使用。但市场需求的增加也对基因检测提出了更高的要求。基因检测需要适应目标人群快速增长、检测越来越复杂的现状,提高对大数据的处理能力。
金域医学生信总监孙明明已在生物信息行业深耕13年,面对这样的现状,他深有感触地说:“基因测序短时间内就能够产出PB级的海量数据,因此只有通过更高性能的服务器与更快速的分析算法,才能满足如此大量且多样化的数据需求,让数据价值得以更大程度的体现。“那究竟什么样的HPC才适合临床基因检测呢?孙明明给出答案:“首先我们将检测需求进行场景分类,然后根据相应场景选择合适的HPC。”
· 场景一:大量集中型送检,此场景检测数据量巨大,因此需要本地端有一个大规模的HPC来进行数据处理。这样构建的优势在于可以将HPC与大型测序仪进行一个稳定的内网连接,可以保证临床数据处理的时效性和稳定性;
· 场景二:少量分散型送检,针对一些小规模医疗机构,它们所产生的基因检测数据量通常较小,构建本地HPC成本太高。因此可采用云端HPC的部署方式,这样既能满足医疗机构的检测需求,同时能够解决成本问题。
孙明明说:“将需求按照场景分类后,HPC的部署方式就明朗化了。但其中本地HPC因会受到部署场地及供货周期的制约,如果遇到检测量剧增的突发事件,无法做到实时动态的硬件资源扩展。如何解决?我们选择了华为云提供的资源混合调度方案,通过它动态拓展的特性解决了这个问题。”他表示,采用了现在的整合方式后,本地HPC和云端HPC可以实现统一管理,只要设立一个统一的管理节点,就能同时管理线下和云端的计算资源,当本地HPC负载过高时,数据分析服务会自动推送到云端,有效解决了本地算力不足的困扰。
谈及未来,孙明明表示:“目前,金域医学的业务已经覆盖了整个产业链上中下游。希望未来能与合作伙伴共同努力,将大技术平台、大服务网络、大样本、大数据库联合起来,构建‘检验+’的生态圈,并通过这个生态圈加快大样本、大数据、医检技术创新的发展和突破。”
满足三代基因测序多样性需求,华为云HPC高性能成首选
在基因测序中,测序的长读长能有效提升基因组组装的完整性。相对于二代测序,三代测序的长读长优势,能够帮助它突破二代测序短读长技术在人类遗传疾病研究、动植物基因组完成图组装等方面的瓶颈、提升其在疾病诊断、分子育种中提供决策依据的能力。(备注:读长指的是测序反应所能测得序列的长度)
三代测序的单张芯片的测序数据量会达到100Gb以上,而希望组生产中心一年将会消耗近万张测序芯片,算上衍生出的大于测序数据数倍的原始数据,三代测序所产生的数据量会是海量的,其数据存储与分析符合大数据的特征。武汉希望组COO刘雷博士介绍,在三代测序中,无论是PacBio测序仪还是Oxford Nanopore测序仪,所产生的数据包含了分析所用的fastq数据,以及这些数据的原始格式bam,fast5等;而这些bam,fast5格式往往会是原始数据的5~10倍。因此处理这些庞大的数据,对于算力的要求很高。那么究竟什么样的HPC是三代测序的“理想型”呢?
刘雷博士认为,由于基因测序的数据与数据隐私安全息息相关,因此,符合要求的、理想的HPC首先应该是安全可控的,从而确保在复杂的环境中保障基因数据的安全;其次要具备良好的性价比,在性能满足需求的同时尽可能节约成本。“我们希望对计算资源进行合理调配,利用公有云对大量非敏感业务进行快速交付和流程调优,少量敏感业务运行于本地以满足企业对数据隐私保障的要求。基于上述考虑,我们最终选择了华为云提供的资源混合调度方案实现整个计算资源的整合。该解决方案的多面性为我们提供了更多选择,非常好地满足了我们对HPC的需求。”刘雷评论道。
逐渐完善的检测技术和不断降低的设备成本使基因测序被越来越多的人认可,其巨大的发展潜力毋庸置疑。刘雷表示,在坚持三代测序技术应用不断迭代的同时,希望组将与合作伙伴携手共建基于生态测序的高性能计算机群,为全世界的客户提供优质的生态测序分析和存储的服务。
华为云使能基因测序行业,低成本适配云时代
毫无疑问,数据会随着基因检测能力的提升成爆发增长的态势。检测机构对HPC的性能要求也会相应提高,对解决方案提供商的选择也会越发谨慎和严苛。在当下,怎样的HPC才能适配不断发展的医疗健康产业,什么样的云厂商才会得到检测行业的青睐?
华为云基因行业解决方案总监严斌表示,理想的HPC不仅要满足用户对集群易用性和高性能的要求,还需考虑综合性价比。华为云推出的资源混合调度方案,不仅可以一站式管理本地-公有云计算资源,还可管理x86虚拟机和鲲鹏虚拟机的混合资源池,从而为客户提供更高性价比的HPC集群。同时,华为云还提供基因容器和医疗智能体等行业解决方案,从版本管理、状态监控、费用审核和资源消耗等多个维度对业务流程进行优化指导,从而进一步提高整体方案的性价比。
“我们希望华为云作为行业的黑土地,提供更多的创新方案,使能基因测序行业在云时代高速、稳定和智能地发展前行。”严斌如是说。
基因检测行业正处于高速发展的黄金期。算力是决定其能走多远的关键性因素。当下,HPC也在和基因检测行业一起接受市场和用户的考验,在多样化场景中不断迭代和进化。经此一役,HPC和基因检测也将进入一个新的发展阶段。