浙江日报报业集团(以下简称浙报集团)于1949年5月9日创刊,是中国前五名、浙江省第一大的报业集团。随着互联网技术的兴起,用户对新闻时效性、内容丰富程度的需求正在日益增加,浙报集团作为传统报业媒体面临前所未有的挑战。
浙报集团现有6.4亿网络注册用户、4000万活跃用户、2000万移动用户,并两次入选“世界媒体500强”。其“媒立方”平台是集舆情研判、统一采集、中央厨房、多元分发、传播效果评估于一体的新型智能化传播服务平台,利用大数据机器学习和自然语言处理技术,从用户现实及未来需求入手,整合浙报优势资源,以场景式技术创新实现多维度选题策划、全媒体指挥协同、碎片化内容创作、可视化流程监测、多渠道融合发稿、原创作品传播分析等全新功能。
目前,“媒立方”平台拥有海量的非结构化的数据,包括图片、视频等。此前,这些文件通过文件存储的方式来存放,使用体验很差。浙报集团一直希望通过更优的存储解决方案来高效地与业务系统对接,满足其海量数据的增长和多维度的数据保护需求,同时帮助集团扩大现有的客户群体,提升经济效益。
挑战:原有的FAST DFS搭建的文件存储检索速度慢,管理不足,保护数据手段单一
鉴于过时的存储方式和日益增长的数据量,浙报集团面临的数据管理挑战包括:
挑战一:“媒立方”平台作为核心生产业务系统,需要不断对其写入海量文本,进行海量文件的检索和删除操作——现有的文件存储无法满足业务系统的性能要求。 挑战二:FAST DFS搭建的文件存储对于数据生命周期的管理也相对不足,数据归档困难。挑战三:FAST DFS搭建的文件存储采用双副本保护数据,备份保护数据手段非常单一,数据丢失风险极大。
另外,在数据量巨大的前提下,双副本的机制导致数据空间占用急剧增加,此前,在一年半的时间里,其文件存储空间消耗过快,尽管紧急地进行了多次空间扩展,却仍旧导致成本远超过预期。
解决方案:HCP提供对象存储内置检索能力、完善的生命周期管理和丰富的数据保护策略
Hitachi Content Platform(HCP)是一款多用途的分布式对象存储系统,旨在支持大规模非结构化数据资源库,可帮助IT企业和云服务供应商采用单一存储平台来存储、保护、保存和检索非结构化内容。
HCP消除了存储非结构化内容的孤岛式方法,提供分布式的云存储服务,实现单一物理HCP实例支持范围广泛的组织和应用系统。由于可以支持数千个租户、成千上万个命名空间以及一个系统内可达1000PB级容量,HCP真正实现了“云就绪”。
简单的说,相较于使用传统的文件存储来存放海量非结构化数据,HCP作为对象存储具备以下特点和优势:
支持海量数据快速访问:单个HCP系统可以支持100PB级的存储容量,即使单个桶也可支持1000亿个文件,无需构建分散的存储系统和创建众多文件系统,即可轻松满足用户的海量数据存储需求。浙报集团可以通过访问节点和存储节点的闪存加速,增强HCP的性能,应对“媒立方”目前面临的性能挑战。提供全面的数据保护能力:作为最持久且可靠的平台,HCP为浙报集团提供全面的数据保护能力,无需借助于耗时耗资的传统备份,即可实现物理错误、逻辑错误(人为和病毒等)、比特错误和灾难等场景的数据保护和修复,保障99.9999999999999%的数据持久性。支持随时随地检索数据:HCP帮助浙报集团实现了可随时查询的数据湖,提供HTTP(S)/CIFS/NFS等多种访问协议,用户可以随时随地访问和检索数据;提供接口和大数据结合,允许用户直接在静态数据上运行复杂大数据分析,无需提取数据以及将其加载到单独的分析系统。
主要成果:大大提升了数据检索速度,实现了数据在线生命周期管理和免备份数据保护
截至目前,“媒立方”平台新上线的对象存储内已经迁入21亿个对象,且在不断将原来文件存储中的数据迁入新的对象存储中。除了文件的迁入,目前,该平台每天会新产生约200万个新对象,预计一年内将新增近8亿对象,按照保守估计,每年将达到30%的增长量,三年内,新增的对象数量将超过30亿。
面对如此海量的数据,对象存储替代传统文件存储是必然的选择,分布式的对象存储通过平滑扩展,可以实现对海量数据的支撑。
新存储确保文件访问提速:HCP为横向的分布式存储架构,其系统本身包含了数据管理、保护、索引及存储池管理等功能,分布在横向扩展的数据管理(或访问)节点上,可以从4个节点扩展到80个节点。访问节点和存储节点均配置闪存硬盘,实现数据库的检索提速、元数据的检索提速和所有文件访问的速度提升,完全满足业务现有的性能要求,也完全可以支持业务在线平滑扩展,满足未来更多文件访问带来的性能压力。
新存储实现在线自动高效归档:HCP后端存储空间可以是分布式管理节点本地磁盘、外接高密度大容量对象存储节点、NFS文件存储、异质磁带库或光盘塔甚至是公有云存储。浙报集团除了配置了对象存储专用存储节点1PB的存储空间之外,还利用原有的FAST DFS搭建的文件存储空间,完成了设备再利用,并实现将活跃数据直存对象存储容器中、非活跃的历史文件自动归档的功能。
新存储更好保护“媒立方”文件:HCP是专门为海量影像文件存储定制的对象存储平台,该平台可在线扩展至1000PB的存储空间,写入HCP的文件将通过其WORM功能、自动影像数据双写、文件自治愈等功能避免误删、软件错误等逻辑故障对影像文件带来的损坏;HCP专利的EC纠删码可允许在同时损坏多达6块的情况下仍然不丢数据,避免物理故障带来的数据丢失;HCP双活、多活也能轻松实现灾难防护。海量媒体数据由此实现了免备份的数据保护。
浙江日报报业集团信息安全与运维中心主任余宏伟表示:“基于HCP构建的云存储平台帮助我们直击存储性能、数据管理、数据安全等长久以来的痛点,实现了内容高速访问、自动高效归档和免备份的数据保护,帮助‘媒立方’平台更好地服务我们的读者。也正是因此,浙报集团才能够更好地应对互联网时代的挑战,满足广大用户快速获取丰富、多元化内容的需求。”