2022年2月4日至3月13日,北京顺利举办了第24届冬季奥林匹克运动会。时间拉回到2019年12月26日,北京2022年冬奥会和冬残奥会官方网络安全服务和杀毒软件赞助商发布会在北京冬奥组委园区举行,奇安信正式成为北京2022年冬奥会和冬残奥会官方网络安全服务和杀毒软件赞助商。时至今日,已两年有余。从成为冬奥会赞助商,到以零事故的成绩圆满完成冬奥会安全保障,离不开从零开始搭建到流畅运转的冬奥安全运营中心。
提到冬奥安全运营中心,离不开一个贯穿全程的人,奇安信冬奥项目的总工程师尹智清,大家都叫他老尹。“从2019年12月26日开始,奇安信正式成为北京2022年冬奥会和冬残奥会官方赞助商。” 回顾冬奥项目设计阶段,老尹提到,“早在2019年3月,冬奥项目的设计工作就已经开始。”由于3月份冬奥组委还没有正式发布应征文件,所以第一版设计方案并没有可参考的明确要求,其主要参考依据是奇安信多年的重保经验。
老尹说,当时参与做第一版方案的只有3个人,只能摸着石头过河。即便没有可参考的要求,这3个人的团队还是在7月份迭代了第二版方案。直到2019年9月份冬奥组委的应征文件正式发布,才有了明确的方案要求,也就是从那时候开始正式进入最终策划阶段。在数十人团队的共同努力下,直到最后中标,奇安信冬奥重保任务的第一阶段的正式完成。
与以往重保不同的是,首先冬奥项目的网络安全建设耗时非常长,前后历时2年多,其次奇安信要全面承担冬奥会网络安全责任,从以往项目的甲乙方关系变成了合作伙伴关系,这一点的转变非常关键,也给冬奥重保提出了更高的要求。
“冬奥组委对于我们的最核心要求就是,要对冬奥会的网络安全承担完全的、彻底的、端到端的责任,最终目标就是零事故。”老尹说。
同步规划 同步建设 同步运营
在正式成为冬奥赞助商之后,项目也即将进入现场交付建设阶段。
“冬奥项目有数十家赞助商及第三方云上云下业务系统,涉及多个场馆,要保障冬奥项目全盘业务系统安全运行,就意味着,冬奥项目的网络安全建设要与多个业务系统保持同步规划、同步建设、同步运营,这也是项目初期最大的难点。”冬奥安全运营中心现场项目经理仝磊提到,几十个利益相关方要保持协同、进度计划适配、技术对接、系统联调,往往安全建设总是被安排在业务系统之后,还要面临着工期被压缩等诸多压力。不仅如此,在与有些业务相关方做技术对接的时候,还会遇到各种各样的“非技术性难题”。
入场后面临的第一个问题就是定位。冬奥安全运营中心在设计之初包含三级指挥中心,即一个总指挥中心+三个赛区指挥中心+场馆指挥中心,但由于冬奥没有了赛区的概念,相应赛区指挥中心也随之取消,最终只有位于首钢园区的总指挥中心——即冬奥安全运营中心。
而作为冬奥安全运营中心的核心安全监测平台,需要汇集全量数据,因此该平台必须要拥有巨大的数据处理能力以及相应的关联分析能力,对所有安全事件集中展示,且总指挥中心所有安全监测、分析人员都能够通过一个平台监控、分析、处置安全事件。于是在多次评估和讨论之后,奇安信态势感知与安全运营平台(NGSOC),顺理成章成为了建设冬奥安全运营中心安全监测平台的核心。
与此同时,为了提升效率,冬奥安全运营中心采用了全流程的标准化运营,制定了涉及安全运营、安全运维、应急响应的SOP(标准作业程序),以上每个环节的决策和动作都对最终结果产生了重要影响。
“其实当时选择哪个产品作为核心安全监测平台并没有那么顺利。”老尹回忆说,“但作为总工程师,要对整体项目进行考虑和负责,总指挥中心人员有限,不可能让他们分散去监测多个设备,在事件处置上也无法做到及时和高效。” 作为冬奥安全运营中心核心安全监测平台,NGSOC承载着从数据的接入、日常监控、应急管理、溯源分析、事件处置、态势呈现等全流程动作的对接和落地,因此需要最早一批进场交付部署。
熬夜、红牛,持续两周的交付部署
在2020年那个炎热的夏天,PNC机房刚刚完成建筑施工,在网络条件还未完善的情况下,冬奥项目组几位工程师就奔赴现场,开始了第一次的平台迁移、部署工作。当入场的时候着实被吓了一跳,交付团队的同学带着防毒面具的在里面忙碌着。
机房建成初期里面充斥着粉尘和不确定是否有害的怪味气体,冬奥安全运营中心项目的交付部署和建筑施工同步进行工作,当你认为耳边想起的轰隆声是服务器声音的时候,却发现有可能是电钻和榔头,还有可能是空调调试的轰鸣声。大家在机柜之间,竖起服务器纸箱子,作为电脑办公桌、作为半蹲半坐的椅子、也作为走廊的“餐桌”。每隔一两个小时就要出去室外换个气、同时在夏日阳光下“取暖”。
据其中一位工程师回忆,持续高强度的工作,身体稍微有点吃不消,印象最深刻的一次是在机房升级到晚上近凌晨1点,按照升级流程一步步地进行着,不停地敲击着键盘,突然鼻血留在了键盘上。
“因为项目工期比较紧,所以大家住在了离冬奥安全运营中心最近的旅馆,早上8点进场、凌晨一两点离开,晚上大家为了提神,3个人每2天就会喝掉一箱红牛,嗓子肿到1天只吃一顿饭,不敢喝太多、不敢吃太多,因为上厕所要去差不多1公里之外的地方,来回跑太耽误事儿。”另一位工程师补充说到。
即便如此,时间也显得非常紧张。
NGSOC平台的部署工作持续了大概2周的时间,工程师们克服了恶劣条件带来的困难,解决了很多技术问题,在保障冬奥组委业务使用的前提下,平滑稳定地实现了平台集群拓荒部署、平台迁移、HA(Highly Available,是双机集群系统简称,提高可用性集群,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为主活动节点及备用节点)上线、HA初期技术验证等工作,为后续的安全建设工作提供了支撑。
高可靠、高安全,主备集群无缝切换
冬奥项目采用HA(双机集群)的方式,这在NGSOC以前的项目中是没有遇到过的,也给研发人员带来了巨大的挑战。“主备集群的配合可以有效保障业务系统稳定运行,通常我们完成主备切换需要30分钟。”NGSOC事业部研发总监说,然而这个速度显然还达不到冬奥标准。而随着技术难关一个个被攻克,直到最后,主备切换不到10分钟即可完成。
为了达到冬奥会零事故的要求,NGSOC研发团队从建设初期就开始研讨高可靠、稳定性和安全性要求,从架构设计出发全面提升产品能力,目标是达到冬奥会的高质量标准,打造冬奥标准NGSOC。
首先是高可靠。NGSOC借鉴了传统安全产品的高可靠思路,通过主从的方式实现高可靠,但是很快就面临困难,海量的数据如何能够做到一致性关联、高并发的告警处置过程如何实现状态同步等。研发中心组建了攻坚团队,最终在架构层面成功解决。通过唯一性ID生成算法,在HA主从集群实现一致性关联。通过逻辑复制机制,实现告警处置过程的状态同步,并且顺利实现了可控的主从同步切换机制,在紧急故障情况下可实现业务不中断。NGSOC平台最终在日均35亿日志高吞吐和50+人并发运营条件下,实现了数据的主从完全同步。
其次是稳定性。NGSOC需要对自身的稳定性以及输入异常做出反应,避免自身陷入异常。在研发过程中实现了对核心组件进行监控,包括服务监控、告警通知和自动恢复机制。一旦某个核心业务组件出现异常,NGSOC可以自动感知,并通过冬奥会短信网关及时通知7*24H待命的安全运维人员及时介入并处置。同时,在NGSOC能够自动恢复的情况下,会同时尝试自动恢复。其次是实现了对集群EPS负载进行监控,当集群负载超出集群告警阈值的时候,NGSOC自动短信通知监控人员,通过冬奥应急响应SOP,按要求进行降负载处置,避免数据积压等问题出现。还设计了限流保障机制,过载情况下也要确保NGSOC本身稳定运行。最终NGSOC在冬奥会和冬残奥会期间7*24H小时持续稳定运行,做到了运营平台零事故。
最后是安全性。NGSOC作为冬奥安全运营中心核心安全监测平台,保障自身的安全至关重要。NGSOC冬奥研发项目组联合奇安信集团多位架构师、攻防专家和研发人员,重点梳理了以下几项工作:
第一是进行源代码审计,从根源上找到所有可能被利用的攻击漏洞,进行彻底修复上线;
第二是参加冬奥会众测专项,将冬奥项目1:1环境搬到线上,接受渗透测试人员的攻击测试,对所有发现的攻击脆弱点进行修复和验证;
第三是冬奥现网暴露面梳理,对NGSOC的所有访问路径、账号和权限进行统一管理,权限做到最小化,将授权的访问路径梳理出清单并统一管理,其余非授权的访问路径全部设置封锁阻断策略。
第四是新增NGSOC自身安全性检测,安全从来不是绝对的,一旦NGSOC被攻击,如何能够快速而准确地产生预警,以便最短时间内介入处理就非常重要。除了通用的终端安全检测、网络攻击检测和APT检测等攻击检测手段,还引入了NGSOC网络白名单机制,非白名单的入站和出站均告警和阻截,最大限度避免NGSOC被攻击或攻陷。此外,还给NGSOC平台增加了300多条自身安全加固和检测规则,让NGSOC平台在冬奥会和冬残奥会期间实现零事故。
技术的困难可以靠人力解决,但项目进行过程中遇到的困难不仅仅只是技术难题,比如从2020年2月开始开展HA项目研发开始,由于各方面原因,研发人员并不是一成不变的,每一次人员的更迭都需要消耗大量时间去培训和交接。
老尹还提到,除了NGSOC外,冬奥项目在2020年几乎都在进行安全产品能力提升和交付部署阶段,直到2021年重心开始转向运营。冬奥安全运营中心项目整体做下来也是了了一个夙愿,从加入奇安信开始一直在接触和参与安全运营相关的工作,心里也一直有一个目标和期待,就是通过标准化把常态化安全运营真正做起来,事实也证明了做起来很有必要。冬奥项目经历了一个从极繁设计-不断简化-不断优化-全部标准化的过程。考虑到全面性的同时,又要兼顾效率,过于繁琐的设计会大大降低效率。
下一篇将会进一步讲述如何实现冬奥安全运营中心标准化运营。