腾讯云168小时“复活”微盟:数据安全无小事
3月5日,腾讯云官方一篇关于微盟数据库修复实录长文的发布,这场牵动了上百万商户的热点事件,其背后的诸多细节也浮出水面。不少行业内专家在了解过程后表示,数据安全已经成为数字商业时代任何一个企业都无法回避的问题,而上云可以作为一种可以加强数据安全手段,应该受到企业的重视。
从紧急组建最精锐的工程师团队,到制定修复方案,再到168小时腾讯会议远程协同操作以及调动算力支持,腾讯云在这场难度极大、耗时极高的修复工程中交出完美答卷的同时,也为更多企业应该如何保护好自身的核心业务数据资产敲响了警钟。
此次数据修复工作的总指挥、腾讯云运维中心和客户服务部门负责人徐勇州表示,事件发生后,腾讯云组建了来自北上广深四地的服务器技术、IDC现场、售后专家、安全、存储、数据库、网络、基础IaaS研发运维等在内的30多人工程师团队,与微盟无缝对接,迅速开启事故排查及数据恢复工作。
经过排查,腾讯云技术团队确认部署在微盟自建MySQL数据库上的数百T核心业务数据全部被删除,连同备份数据也一并被删除。基于此,腾讯云制定了从备份服务器入手恢复数据的大方针。
在徐勇州看来,此次数据修复时间紧任务重,而传统数据修复方式时间长,风险大,难以胜任此次的修复工作。为此,腾讯云越过传统的复杂步骤,创新性的制定了一条速度快、风险低的服务器扫描修复方案,后续的实践也证明该方案具备可行性。
为确保万无一失,腾讯内部多位硬件专家全程通过腾讯会议进行远程视频操作指导。“所有的专家都在线,几十双眼睛,在屏幕前盯着现场工程师的每一个动作,以保证准确无误。”据悉,在此次整个修复过程期中,腾讯会议处于7*24小时开启状态,从未间断,腾讯云各个业务团队累计通过腾讯会议进行766次入会沟通。
当然,数据的提取和修复并非一帆风顺,数据硬盘掉线、提取不完整、数据遗漏等问题接连出现。为确保快速地完成数据的完整提取,腾讯云服务器团队一度临时从上海机房调拨了100多台服务器进行算力支持。
徐勇州在接受记者采访时表示,“我们的目标是要做100分,哪怕失掉5分,对一个商家来说可能就是全部。”经过反复的打捞、拼接、扫描、验证,3月1日,腾讯云成功找回微盟的完整数据。
这场数据被删除事件,为何需要7天7夜才完成数据修复工作?据了解,微盟在业务上虽然采用了混合云架构,但核心业务数据依然部署在自建MySQL数据库上,只有部分业务上了云。而此次数据修复困难的一大原因,就是微盟大部分核心数据没有上云,这部分体量多达数百T的数据,连同备份被完全删除。此外,微盟因为没有类似腾讯云CAM权限系统那种对资源进行更细颗粒度管理的体系,没有对高危险动作执行二次授权的安全机制,也是导致此次数据安全轻易失守的重要因素。
业内专家表示,核心数据上云在数据安全管理机制、灾备体系建设、以及运维处理等层面相比自建数据库都具有优势。微盟如果数据全部在云上,借助云服务里比较完善的数据备份机制和授权管理机制,这场黑天鹅事件或许可以免于发生。
微盟在3月1日公告中宣布后续基础设施将全力上云,逐步将数据迁移到腾讯云数据库,使之具备数据库跨可用区和异地灾备的能力。同时,也将借助腾讯云相关产品提升权限管理等方面的数据安全保障。
徐勇州表示,仅仅依靠单点防护难以达到真正的安全防护效果,企业需要构建一整套完整的安全体系,每个环节都不能有疏忽,构建基于全生命周期的安全防护将成为更多企业的必然选择。
相信在此次微盟事件过后,会有越来越多的企业真正认识到数据是企业最重要的核心资产,并数据安全上升到公司战略层面。保障核心业务的绝对安全,关键业务的上云,提升数据容灾能力以及运维效率,已成行业共识。