在数据成为关键生产要素的今天,数据合规流通面临着种种挑战。比如同类数据不易聚合,数据价值难以最大化;比如数据源间彼此隔离,相关数据无法互补;再比如算法能力受限,部分企业发挥数据价值力不从心等。如何在维护国家数据安全、保护个人信息和商业秘密的前提下,促进数据合规高效流通使用、挖掘数据价值、赋能实体经济,成为不少技术服务平台不断发力的方向之一。
火山引擎是字节跳动旗下的云服务平台,其研发的Jeddak数据安全沙箱(下文简称“沙箱”),以可信执行环境(Trusted Execution Environment,TEE)为核心,为企业用户提供可调试、敏捷、高效的联合建模解决方案。
据介绍,沙箱在设计之初就着重关注于提高建模的易用性,因此其内置了一系列的常用机器学习算法帮助企业用户做标准化的建模,如逻辑回归、XGBoost、通用神经网络模型等。此外,沙箱也提供了在线和离线模型推理服务,保障模型和数据安全。基于上述能力,沙箱能够灵活地满足各种建模需求,为数据融合建模、数据外包计算和数据开放服务场景提供支持。
目前,沙箱已经服务于内外部多个业务的建模、预测场景,为各方数据的全生命周期隐私安全提供保障。本文详细介绍了数据合规流通的难点,以及火山引擎是如何破局数据合规流通之困。
数据合规流通,四个典型的联合建模困局
随着数字化转型的推进,数据已经成为了各个机构的核心资产,并作为数字化、智能化转型的基础,深刻地影响着生产、分配、流通、消费、管理等每个环节。
2022年底《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”)正式对外发布,这标志着有序规范地发展数据经济,从一开始的特定行业、地方政府的政策意见,发展为国家层面的全方位的政策。“数据二十条”以促进数据合规高效流通使用、赋能实体经济为主线,以达到数据要素价值充分实现、促进全体人员共享数字经济发展红利为目标。但与此同时,“数据二十条”也强调了必须以维护国家数据安全、保护个人信息、保护商业机密作为数据流通使用的三大前提,这标志着关注数据“可用不可见”的可信隐私计算技术有望成为核心解决方案和基础设施。
“数据二十条”中强调的三大保护数据隐私的前提,一直以来都是数据流通需要面对的挑战:如何充分地发挥价值的同时,也能够保护好数据隐私安全。联合建模作为数据流通的一个典型场景,同样面临着类似的问题:
●同类数据不易聚合,数据价值难以最大化。各大医院经过多年对病人的接诊,往往积累了大量的医疗数据(例如心血管疾病的医疗影像),通过汇聚这些数据,可以在训练用于辅助诊疗的医疗模型上提供极大的助力。然而医疗数据涉及到病人的关键隐私,医院对于此类数据的共享交互有着极大的顾虑。
●数据源间彼此隔离,相关数据无法互补。在广告营销领域,广告主对于其用户往往会进行一定的标记,以便更容易地筛选客群。这类信息对于广告平台补充他们广告受众特征、优化广告投放模型来说有着重要的意义。然而随着数据隐私相关法规的逐步收紧,同时公众对于数据隐私保护的意识逐渐增强,这些数据的流通会受到更多的挑战。
●海量数据流通搁浅,无法充分发挥价值。政务类数据往往具备着海量规模与高价值的属性,例如气象、交通等数据。这类数据极难公开获取,但对于相关领域、行业、研究机构有着极大的实用意义。然而,直接将此类数据公开给外部使用,存在着数据滥用的风险,甚至导致公民隐私甚至国家机密的泄漏。
●算法能力受限,发挥数据价值力不从心。通过数据建模,提取价值后为业务赋能,已经成为行业上的基本共识。但是部分企业(如一些传统行业、小微企业)受限于建模能力的不足,无法充分出发挥自身数据的价值,就会求助于第三方的成熟能力。但在这个过程中双方都存在着顾虑:一方面数据方担心数据信息的泄漏,另一方面算法方也会顾忌于算法知识产权的保护,再加上缺乏实用的监督与控制手段,导致此类合作存在很大的风险。
破局数据流通之困
为了应对上述挑战,沙箱以可信执行环境(Trusted Execution Environment,TEE)为核心,针对联合建模为企业用户提供可调试、敏捷、高效的解决方案。
据悉,沙箱在设计之初就着重关注于提高建模的易用性,因此沙箱内置了一系列的常用机器学习算法帮助用户做标准化的建模,如逻辑回归、XGBoost、通用神经网络模型等。沙箱用户对算法的超参数完成配置后,可对上传到沙箱中的数据直接进行建模,为此沙箱通过图形化界面向用户提供了一系列的可调超参数,帮助用户便捷地进行调参。沙箱内置了一系列的量化指标,能实时反馈训练的效果,为用户优化模型提供依据。此外,沙箱支持定制化建模功能,在该模式下沙箱支持用户自行开发模型训练脚本,提供接近于原生的建模体验,用户可以根据实际业务需求完成自定义模型训练脚本,例如训练基于TensorFlow/PyTorch的深度神经网络模型。
沙箱也提供了在线和离线模型推理服务来保障模型和数据安全。由于模型包含着训练数据的特征,同时也体现着算法提供方的知识产权,为此沙箱支持在TEE内对模型使用方的输入数据进行推理。依托于成熟的模型推理框架、集群化的部署,沙箱在安全与性能之间取得最佳平衡,为模型的全生命周期进行保驾护航。
●基于上述的能力,沙箱能够灵活地服务于各种建模需求,为数据融合建模、数据外包计算和数据开放服务场景提供支持:
●数据融合建模:联合建模参与方彼此保有一定量的数据,但是由于缺乏一定的特征、标签,或数据规模不足等原因,需要对数据完成融合之后才能进行训练;
●数据外包计算:依托于可信第三方,将来自一方或者多方的数据、算法在其内部完成安全融合计算,解决参与方建模要素的缺失或者计算资源不足的问题;
●数据开放服务:是一种特定场景下的数据外包计算,数据方使用可信平台进行数据托管,算法方在此平台服务下,可以基于自己的训练脚本或者平台内置的算法组件实现灵活、可控的建模需求。
数据融合建模场景
在目前的联合建模场景中,较常见的需求是由于参与的一方的训练数据缺乏关键特征、标签或者数据规模不足,需要参与方之间通过共享数据的方式完成联合模型的训练。进一步地,根据参与方的训练数据的特征分布差异可以大致划分为横向与纵向两类。
在横向联合建模场景中,沙箱首要的责任是完成对所有参与方数据的汇聚。训练伊始,参与方通过沙箱的客户端将数据上传到沙箱内,而沙箱则为该过程构建了安全的加密信道,保证数据安全可靠地被传输至沙箱内。沙箱在完成对所有参与方数据的汇聚后,会将密态的数据加载到可信内存中,并对数据进行预处理,如各方数据的拼接、特征工程(如归一化、标准化等)。随后沙箱会基于完成处理后的数据对模型进行迭代训练,并实时反馈训练效果给客户端。在完成训练后,沙箱也严格遵循数据最小化使用原则,立即删除汇聚的数据。横向联合建模针对的是一类较为简单的场景,各个参与方的数据具有相同的特征分布,但是每个参与方所拥有的数据来自于不同的样本个体(样本ID不同)。典型的案例如:某个业务与其合作伙伴本地都具有构造了类似的数据集以训练业务模型,通过训练好的模型来赋能业务,但是由于单方数据规模过小的原因,无法达到预期效果。横向联合建模的主要目的是通过扩展数据样本的数据量,来增加训练模型的精度。
纵向联合建模适用于参与方的特征空间不同,但是数据基本来自相同的样本个体(样本ID相同)的场景,这类场景在广告营销、金融分析等领域比较常见。以广告营销为例,广告平台的用户群体通常与广告主的用户有着较高的重合度;但是由于所关注领域的不同,双方收集的特征会存在差异。纵向联合建模则通过融合多方的数据特征,继而提升训练模型的效果。同样以广告营销为例,通过融合广告主与广告平台的数据特征,可以为广告投放模型带来更优的效果,提高广告转化效率。
沙箱同样为纵向联合建模过程中各参与方的数据隐私提供保障。对于纵向联合建模,其关键步骤是对齐所有参与方的样本,即找出所有参与方中ID相同的样本。为此,沙箱基于TEE提供了隐私求交能力(Private Set Intersection,PSI)帮助参与方安全快速地完成样本对齐。在建模阶段,沙箱的工作流程与横向联合建模的流程基本一致,包括对数据的预处理,以及根据定义的模型完成迭代。
数据外包计算场景
数据外包计算主要针对的场景是如何在数据方缺乏建模能力,算法方缺乏数据,或者建模的参与方缺乏计算资源的情况下,安全充分地发掘己方资产(数据、算法)的价值。由于没有数据获取来源、缺乏建模技术积累等原因,很难使得一方可以同时拥有数据和算法;或者由于成本等因素考虑,联合建模参与方不具备训练大型模型的计算资源,这时需要引入可信第三方来辅助完成建模任务。在这个场景中,数据方会因为数据隐私问题存在数据出域的担忧;同时,对于算法方也可能会出于知识产权保护的顾虑拒绝提供给可信第三方。
沙箱是基于可信执行环境进行的设计,其内部的数据与代码都会经过硬件方式进行保护,无法被外部窃取。针对上述的数据外包计算场景,算法方的算法和数据方的数据可以外包给沙箱,通过沙箱完成数据的与算法的汇聚。
对于数据方的顾虑,沙箱会通过安全的信道接受数据方的数据,保证明文数据仅对沙箱可见。据悉,沙箱会将内部的算法分为非敏感的结构部分与敏感的配置部分,而沙箱会对非敏感的结构部分进行一致性校验,并向数据方提供一致性报告,以便其验证算法与算法方所声明的一致。而针对算法方的顾虑,沙箱首先保证其算法仅会在运行时以明文状态加载,其余时刻都以密态形式保存在本地;同时,在一致性校验时,沙箱仅会向数据方提供经过脱敏的算法结构部分,不会泄漏涉及算法知识产权的配置部分的信息。
在本方案中,沙箱作为唯一的汇聚节点聚集了算法、数据,而双方的内容都对对方是不可见,保障了数据的隐私安全与算法的知识产权。
数据合规开放服务场景
对于一些大型的数据服务商,其拥有着海量的数据,由于此类数据多属于特定领域的内部数据,因此这些数据对于外部的各类公司、研究机构有着重要的意义,这些外部客户(又称为算法方)希望能够基于这些数据发掘出更大的价值。尽管数据服务商也希望通过数据的流通,为外部的客户提供助力,但是出于对于数据隐私的担忧,或者缺乏安全的共享手段等原因,数据服务商往往对于数据出域持有保守的态度。
上述场景可以通过沙箱的联合建模能力结合数据开放能力来得到解决。基于沙箱对于联合建模的要素划分,数据服务商是数据方,而其外部客户则是算法方。数据方可以将沙箱作为己方的基础设施,对接内部的数据,通过沙箱完成数据的管理与授权。对于算法方,沙箱提供了模块化的算法组件,可以支持算法方定制化地构造建模算法;同时通过这些模块,沙箱可以对数据的流向进行有效地监控,避免了算法方对数据执行恶意的操作。进一步,数据方可以对数据做额外的标记,沙箱会根据用户的标记在数据的流转过程中进行脱敏、聚合等操作,这样也为数据方提供了监控与管理数据流的能力。沙箱为双方提供了可控的建模能力,既保护了数据方的数据隐私,同时也实现了数据的价值体现。
此外,沙箱还为算法方提供调试能力,帮助算法方调试算法的逻辑。为保证调试效果的准确性,沙箱会在数据方授权的前提下通过基于数据方的数据生成测试数据,帮助算法方进行更加准确的调试。
持续聚焦更加高效、易用的可信隐私计算解决方案
火山引擎Jeddak数据安全沙箱团队不断锤炼自身对于可信隐私计算技术的理解,以求为用户提供高安全、高效率、高质量的服务体验。据介绍,火山引擎安全研究团队2022年首次参加iDASH国际大赛,便荣获机密计算赛道第2名,体现了其在模型训练和算法相关技术积累达到了先进水平。
如今,Jeddak数据安全沙箱已经作为Jeddak可信隐私计算平台的一个重要功能板块加入到火山引擎云安全系列产品矩阵中。
“路漫漫其修远兮”,如何提供更加高效、易用的可信隐私计算解决方案,将永远是Jeddak数据安全沙箱关注的命题。据悉,火山引擎未来也将继续朝着开源、通用、自主可控的方向发展,深入行业实际应用场景,努力为用户带来丰富和便捷的安全计算功能。