基因技术的发展正在使人类在消病延年的路上不断向前。例如通过检测肿瘤基因特征片段提早预防癌症,对孕妇进行无创伤的产前先天遗传缺陷检测等,因此基因检测技术被比作破解生命密码的终极钥匙。
基因测序最主要的下游应用是临床检测和科研服务,是精准医疗的重要落脚点。针对发病原因复杂的疾病,基因测序可以实现对个人的基因组分析,提供个性化诊断,在精准度和信息密度上远超其他诊断方式。随着基因测序技术发展至第三代,市场规模不断扩大,进入高速发展期。
为提升基因测序任务的速度,向更多客户提供更高效的服务,提供该项服务的企业需要部署多套基因测序平台和高性能计算平台,来支撑海量下机数据的分析和存储。这就面临一个亟待解决的现实问题,在基因测序成本降低、测序样本数量快速增大的前提下,基因测序行业特定需求对存储系统和算力都提出了挑战:
数据容量巨大
基因测序过程中产生的PB级海量文件数据,对业务的分析非常重要,需要长时间保留。存储过程涉及到扩容、数据安全等问题。
性能瓶颈
基因测序往往采用多机集群计算,高通量并发访问对存储的带宽和IO都有极高的要求,如果无法满足,就会大大降低测序的效率,延长测序时间。
多样性计算框架与服务挑战
测序数据产出量很大,需要结合高性能计算技术来进行后续的测序数据处理。通常的高性能计算平台来处理测序数据时,都面临规模和效率问题。
为满足客户差异化需求,提供基因测序的企业一般会选择建立多个实验室和实验基地,并运行多种测序平台。这类多客户端并发高通量测序对海量数据的高性能存储、高性能计算以及数据的全天候在线提出了严苛要求。极道智能数据系统中的分布式存储系统和ABC融合计算系统两大组件,在基因测序行业多个客户业务中保持着长期稳定运行。
破解生命科学密码的“超存”问题
针对基因测序特定的数据特征,面向大容量、高带宽应用的极道ALAMO文件存储系统采用分布式架构,性能与容量随物理节点扩展可实现线性增长,轻松扩展至上百节点,达到PB甚至EB级容量,适合测序过程中的高通量和高性能计算的文件应用。同时,ALAMO提供的高带宽数据并行处理能力,实现了数据存储与调用的快速读入、写出和传输。
用户反馈:“极道ALAMO文件存储系统轻松满足多个客户端的并发访问需求,在长期的使用过程中,即使在承载大量测序客户端并发访问时,ALAMO的带宽和读写性能也有极致的表现,没有丝毫衰减。”
在保证数据安全可靠性方面,极道存储系统中的每个文件都可跨多个硬盘组,通过编码保护。为了降低核心元数据丢失的可能性,极道在存储池不同的位置存储三份关键元数据互为备份。实践证明,极道ALAMO在客户数据中心连续在线的60+月中,实现了零数据丢失。
融合计算系统为基因测序加速
在基因测序计算中,多样性计算框架和服务无法同时被调度进行并行计算,作业超长延时难以匹端业务需求。为打破计算瓶颈,企业需要建立具有良好可扩展性的计算平台,满足业务对时间的严苛要求,同时减低部署和管理难度。
利用极道ABC融合计算系统,从根本上能够解决多样性计算框架融合问题。该系统由一个主集群和多个从集群组成一个调度空间,分布式的计算环境让多调度器之间相互协作,突破了集群规模瓶颈。
ABC融合计算系统支持高强度计算分析的多种计算框架,可以按需动态构建计算框架,智能调度各种类型的数据计算、处理和分析任务。内嵌的执行引擎根据用户定义的数据依赖关系将分析工具连接组织生成数据流,使各节点之间根据依赖关系完成多路并行计算或顺序计算。将基因测序平台分析软件搭载在极道数据操作系统上,可使业务与计算资源完美结合,有效缩短计算和调度时间,最大程度提升业务分析效率。
ABC融合计算系统统一的资源池、融合多计算框架和可视化构建数据流等特性,不但保证了算力,而且还可以利用调优来不断释放系统的计算潜力。帮助基因测序行业客户实现计算资源的按需调度,自动化构建工作流程,使复杂工作更加简单化、智能化,这正是极道智能数据系统的价值所在。
值得一提的是,极道ALAMO分布式存储系统和ABC融合计算平台,通过极道独有的存储和计算的一体化协同设计,计算系统可以动态感知应用IO类型,根据数据流动态调节每一个节点所需的计算框架、分配计算资源,让每一阶段计算都极速高效。存储也可以预判任务的IO模型,以做出策略选择和定向优化,提供尽可能高的存储效率和并行能力,为基因测序平台提供了高效、稳定、可靠的支撑。
极道智能数据系统的高灵活和可扩展性满足了基因测序行业客户不断增长的业务需求,并且做到了计算资源和数据资源的完全透明无缝扩展,从而解决客户的数据存储、数据分析和归档备份等问题,让客户更多的关注业务能力,发挥数据的价值,更好地通过基因测序服务社会,以技术驱动“精准医疗”的发展。