云、大数据炒作热度褪去,对数据的存储计算技术正在回归理性。在存储这条传统 toB 市场的赛道上,创业远比 toC 市场复杂艰难许多。近日,一家以分布式文件存储创业,集合了存储计算与数据分析的初创公司——极道,表示从2015年创业至今,已获得国内基因测序龙头企业以及众多基因测序、临检机构、生物制药等生物医疗领域,以及地理空间和人工智能等计算密集型、数据密集型和IO密集型应用的众多客户。CSDN专访了极道创始人吴江,听听他对高性能计算、存储底层技术创业的理解。
机缘巧合的创业历程
极道创始人兼CEO吴江曾任Sun公司Staff Engineer,负责Sun操作系统Solaris的核心研发,是Solaris iSCSI Target的作者之一、SCSA v3第一版原作者以及STK 7000存储系统核心贡献者。2009年起,吴江担任EMC中国研发中心统一存储首席架构师,主持开发了EMC新一代虚拟化集群存储Mako以及NeoTrin产品线;作为核心架构师,吴江主持设计了EMC VNX的核心存储子系统MCX(MCR、MCF)。在大厂积累的研发经验,让吴江和同事们萌生创业想法,从2012年开始存储方向的创业。不过现实是,EMC这样的传统大厂通用存储已经足够好,创业公司的品牌认知度低,抱着机器到处POC(测试)的辛苦,却并没有得到理想的认可。
没想到一次数据事故,让吴江和团队证明了自己的技术实力。2015年7月国内基因测序龙头企业发生了一起数据事故,文件系统损坏导致120T的核心样本数据丢失,当时的存储使用了Lustre(并行分布式文件系统),所询问的大厂几乎修复不了,在大范围求助修复数据无果后,几经周折找到了吴江。Lustre是DDN公司(全称DataDirectNetworks)从Intel旗下的WhamCloud公司收购获得,吴江曾是Lustre的文件系统所用底层文件系统ZFS的核心贡献者,他带领团队在72小时内找回了所有120T损坏的数据。同时,基因测序企业的数据量也震撼了研发存储多年的吴江,通过了解基因测序行业对于数据计算和存取的模式和痛点,让吴江决定从包括基因测序在内的泛生命科学行业切入,二次创业,研发具有特点和技术优势的存储与数据产品。
初创公司一样可以做出好产品
生命科学行业数据量大,系统要求高,IT压力大,但是即便使用目前行业中最好最贵的产品与系统,核心业务运转效果也并不理想,吴江看到了机会。
但是极道没有把自己定位成一个存储公司。吴江认为,当前仅从存储角度解决不了用户问题,计算和存储的纵向融合是趋势,而协同才是真正的融合,即计算将数据存取模式预先告知存储,存储按照需求做到优化和假设。
在2017年之前,生命科学领域以第二代基因测序(简称二代测序)为主流技术,2017年开始第三代测序技术(简称三代测序)兴起。三代测序与二代测序的技术原理完全不同,IO模式产生较大变化,从吞吐变为IOPS。据吴江介绍,当时包括头部存储厂商在基因测序公司的三代测序组装测试中都“挂”掉了,极道也不例外,但是极道团队在短时间内改造文件系统,与行业大佬的同台竞争中,极道的存储系统在最短时间内完成了三代测序组装。吴江在EMC时期,EMC希望做世界级的文件系统以抗衡Isilon,最终的结局以EMC收购Isilon结束。这让吴江看到,与大厂相比,创业公司具有更大灵活性,也可以做出来好产品。
打造“存管算”结合的数据系统
吴江将极道定义为以分布式系统为核心提升IT资源效率,提供高效智能数据处理基础平台的数据系统公司。据极道官方介绍,极道的核心产品涵盖了分布式并行文件存储、强关联大规模实时数据管理系统,以及集群的调度系统和执行引擎,核心软件系统均为自主研发,已拥有多项专利和软件著作权。
在吴江看来,存储系统所有原理讲出来都非常简单,但是复杂程度并不在原理而在于工程实现。一个存储产品的稳定靠长时间打磨和严苛应用场景的磨练。极道第一套系统在2015年9月进入到大规模客户的准生产环境,已经连续验证超过3万个小时,并且已经进入用户一级生产系统。
虽然从生命科学领域切入,但极道的产品也同样适用于三大场景:
生命科学、地理空间、科学研究、科学计算的高性能计算场景;
依赖大量数据的人工智能场景;
视效处理等传统的强需求场景。
极道现在的客户群除了生命科学,还有地理信息、人工智能、能源、科研等等。据吴江介绍,目前,极道在全球的客户总部署节点700+个,在线时长60个月以上,数据0丢失。
极道团队目前50多人,除了销售,全员coding模式。作为创始人,在繁杂的管理事务之余,吴江每周的写代码时间已经仅剩2天。吴江表示,Pre-A轮融资后,正在继续投入和扩大研发力量,毕竟一个初创技术品牌,还要很长的路要走。