一、隐私计算助力数据可信流通
随着大数据产业的迅猛发展,数据隐私安全相关问题逐渐暴露,传统“复制式”的数据流通方式使商业隐私信息、个人隐私信息存在重大泄露隐患,也威胁到国家安全,各国纷纷出台数据安全相关法律法规规范数据应用等行为,中国先后出台了《数据安全法》《网络安全法》和《个人信息保护法》,三法联动推进中国数据市场进入安全合规发展阶段。
但是,在数字技术时代,数据的流通和共享对于创新、科研、商业和社会的发展至关重要。只有在数据自由贸易的过程中,不同领域的数据可以相互融合、交叉分析、创新应用,才能发挥数据的最大价值。这种流通交易需要跨组织、跨边界的数据共享,但又必须在法律法规框架内操作,以保护隐私和数据安全。解决这一关键挑战需要在数据的开放性与保护性之间取得平衡,而隐私计算正是有效的矛盾突破点。
隐私计算,亦称为隐私保护计算(Privacy-preserving Computing),顾名思义,就是在保护数据隐私的前提下进行计算和分析的技术。目前,业界公认的隐私计算三大主流技术路线包括三种:基于密码学的隐私计算技术,这种技术路线以多方安全计算为代表;人工智能与隐私保护技术融合衍生的技术,这种技术路线以联邦学习为代表;基于硬件的隐私计算技术,这种技术路线以可信执行环境为代表。
以上这三种技术路线各有其独特的优势和应用场景,它们共同构成了当前隐私计算领域的主要技术框架,使得隐私计算具备打破数据孤岛、加强隐私保护、强化数据安全合规性的能力。
在此背景下,各部委以及地方部门纷纷出台隐私计算相关政策,隐私计算的市场需求也逐年上升。据统计,2023年上半年隐私计算招标总数已达到2022年全年招标总数的93%。《隐私计算应用研究报告(2023年)》指出,隐私计算在政策和市场的双重驱动下高速发展,正处于产业快速增长期阶段。隐私计算应用也从通信、金融、政务、医疗等传统场景逐渐扩展到能源、工业、教育、广告、跨境流通等新兴领域。
同时,在数据要素加速开放共享的新形势下,隐私计算也成为了支撑数据要素流通平台的重要技术设施,在公共数据流通平台、数据交易平台、企业集团数据平台等平台上被广泛应用。
二、大规模商用痛点分析
随着多项隐私计算开源项目发布,开源生态促进隐私计算行业蓬勃发展,推动着多元化的隐私计算平台落地。从现有应用来看,国内隐私计算以To B市场为主,参与方类型众多。行业需求方已覆盖金融、通信、互联网、政务等对数据融合需求较强的多个行业,但是仍未有合适的大规模商用解决方案。主要的技术挑战为跨平台互联互通存在瓶颈,且隐私计算算法难以在安全、性能、效率三大指标层面均达到最优。
1.平台间互联互通难
隐私计算的大规模商用面临的一个主要挑战是多个隐私计算平台之间的互联互通难题,这也是行业内公认的一大挑战。目前,许多隐私计算服务提供商都推出了各自的隐私计算平台,使用的技术路径、认证体系、算子算法不一致,缺乏统一的标准与规范,导致数据难以进行跨平台流通。这不仅限制了隐私计算系统在更大范围内的应用,也影响了大规模商用环境下的数据交流效率。
隐私计算跨平台互联互通的难点主要包括以下几个方面:
(1)技术壁垒:由上文可知,隐私计算有多种技术路线,不同的隐私计算平台可能采用不同的核心技术。这些技术在底层实现原理上有着显著的差异,这种天然的技术壁垒使得跨平台的互联互通变得困难。
(2)算法实现方式多样:同一技术下不同平台的数据结构和研发算法,由于涉及的实现细节和优化方式不同,可能会有多种实现方案。这种复杂性使得不同平台之间的数据和算法实现难以兼容。
(3)平台设计的差异:除了核心算法外,隐私计算平台还包括资源授权、任务管理、任务编排、流程调度等控制管理功能。由于每个平台的设计都是根据自身的研发思路和应用侧重来进行的,因此不同平台之间在平台应用管理的设计上可能存在显著差异。
(4)数据隐私和安全问题:在实现跨平台互联互通的过程中,如何确保数据的隐私和安全,防止数据在传输过程中被泄露或被非法使用,也是阻碍隐私计算跨平台协作的一个重要挑战。
为了解决跨平台互联互通这一挑战,关键在于推动行业内定制统一的技术标准和协议,建立兼容性强、开放度高的互联互通技术底座。显然,解决跨平台互联互通问题,并非一家单位可以完成,需要在行业内达成共识,令各参与方共同遵守一套规则。
2.三大指标难权衡
随着应用场景增多,隐私计算技术如何在安全性、算法性能和计算效率间找到平衡这一难题逐渐显现。在计算领域中,安全、性能、效率往往是三个互相制约的指标。
一方面,为了保障隐私和安全,需要对数据进行加密处理,这就不可避免地会增加计算的复杂性,从而影响性能和效率。
另一方面,为了提高运算效率和性能,可能就需要降低算法的复杂性,但这很可能会牺牲数据的安全性。
隐私计算的首要目标是保护数据隐私,防止数据在处理过程中被泄露。为了达到这个目标,隐私计算通常需要采用复杂的加密技术,如同态加密、安全多方计算等。这些技术虽然在理论上可以提供强大的隐私保护,但在实际应用中,往往需要大量的计算资源和时间,甚至诸如差分隐私这类加噪方式会影响计算性能,这对于大规模商用来说是不可接受的。对于隐私计算的规模化应用来说,隐私计算性能的提升至关重要。因为它代表着隐私计算的数据处理能力,进而决定着隐私计算进入实际应用场景的可行性。此外,对于部分要求高查询率、低响应的复杂在线计算类任务,效率也是衡量隐私计算技术的另一大重要指标。
总的来说,隐私计算需要在安全、性能和效率之间找到一个平衡。这是一项巨大的挑战,但也为隐私计算技术的发展提供了巨大的机遇。因为这三者的平衡主要取决于企业自身的技术能力和业务需求,因此这一挑战是可以由一家企业在技术研发和应用中能够独立完成的任务,是当前企业在推动隐私计算技术发展的主力方向。
三、隐私计算如何赋能数据流通与交易
在数据要素流通场景中,当前的隐私计算应用模式更看重数据的隐私保护和安全防护。因此,目前的解决方案主要采用多方安全计算、同态加密、差分隐私等数据保护方法对原始数据进行脱敏、加密,以及设计了针对后门攻击、投毒攻击等安全防御方法,实现联合统计、隐匿查询等基础功能。这些方法所蕴含的潜在信息,其实就是流通并交易数据本身,包括原始数据和经过处理的数据,这是数据交易中最基本的一种方式。
然而,需要注意的是,隐私计算技术中的“计算”,并不仅仅是为了安全加密所需的计算操作,更是可以实现协同、支持智能化的普适计算。毕竟,仅仅确保数据安全只是隐私计算技术的及格线,而能够实现有效且高效的利用,才是推动隐私计算规模化部署、充分释放数据价值的关键。
在此背景下,联邦学习作为一种将隐私计算与人工智能相结合的新型技术范式,可以成为解决数据共享严监管与价值释放强需求之间矛盾的关键技术思路,为数据流通与交易提供更加智能化、多元化的模式。
联邦学习是一种分布式机器学习范式,参与联邦的参与方涉及多个机构组织或大规模终端设备,这些参与方通过安全的算法协议联合训练人工智能模型,可以在各方数据不出本地的情况下,通过交换中间数据的形式,联合建模并提供模型推理服务。将联邦学习作为技术底座应用在数据要素流通场景中,我们总结出以下几个主要优势:
1.联邦学习可以提供多元化交易方式
联邦学习具有“数据可用不可见,数据不动模型动”的特性。联邦学习提供了多个数据拥有方之间新型的协同计算方式,最终可以生成适用于全局系统的AI模型,实现联合建模。
以联邦学习为技术底座,不仅可以突破数据孤岛的交易壁垒,还可以实现知识、模型和算法的交易。对于不存有恶意意图的数据需求方,其所求的并非是原始数据,而是数据中蕴含的有效信息。正如《数据价值释放与隐私保护计算应用研究报告》所阐述的,“数据的价值”可以被直接理解为是由“数据”提炼的“信息”、由“信息”归纳出的“知识”、由“知识”通悟的“智慧”。
这正与联邦学习的协同计算模式完美契合。通过本地模型训练,可以提取原始数据信息,且模型可以输出相应知识。而中央节点收集本地模型信息生成泛化的全局模型,这一通用模型便是普适的“智慧”。
因此,将联邦学习应用在数据流通与交易场景中,可以在保护数据隐私的同时,实现数据价值的充分利用。
2.联邦学习可以与多种技术有机结合
联邦学习可以与多方安全计算、密码学、可信执行环境等技术有机结合,构建出更加安全可靠的隐私计算平台。例如,利用安全多方计算技术使得多个节点可以协同计算一个函数而不泄露各自的输入,利用密码学对交互数据进行加密,从而进一步强化了隐私保护,防止信息泄露。
这样的隐私计算平台不仅可以提供更高级别的数据保护,还可以实现更智能、更高效的数据处理和利用。
3.联邦学习可扩展性高、可迁移性强
联邦学习为多个数据拥有方提供了一种确保原始数据不出域的协同计算方式,其本地参与侧可以是具有敏感信息的多个机构、组织、企业等,抑或是数以万计的终端设备。
在谷歌采用联邦学习提升输入法单词预测能力的场景中,终端设备量级达到数十亿。且已有较多算法提出在协同计算过程中解决端侧动态加入/退出系统的稳定性维护方案。
因此,联邦学习具有良好的可扩展性,这一特性非常适用于变化难测的数据交易场景。
此外,联邦学习支持的原始数据形式,涵盖图像、文本、视频等多种模态以及融合形式。也并未约束联合训练的模型种类,能够解决推荐、检测、识别、预测、聚类等多元化的AI任务,可以应用于各种数据流通和交易场景,包括公共数据运营、机构内部数据流通、机构间数据流通、跨境数据流通等,应用场景广。
同时,由于联邦学习的设计原理和技术特性,它具有很强的可迁移性,成熟的联邦学习方案可以轻松地部署于新的场景和环境中。
基于上述优势,将联邦学习作为隐私计算平台的关键技术底座,可以有效解决隐私计算跨平台互联互通问题,并确保隐私计算技术安全可证、性能可用、效率可控。
在联邦学习框架下,参与方可以提炼多模态的数据中的有效信息,并将模型参数作为交互信息的有效载体,不仅消除了因数据结构不一致造成的互联互通障碍,而且可以避免互联互通过程中的数据泄露隐患。
在中国人民银行《金融科技发展规划(2022-2025年)》中,就提到了通过联邦学习技术,可以在保证原始数据不出域的前提下,规范开展数据共享应用,推进金融行业的隐私计算互联互通进程。
此外,在联邦学习框架的基础上,更容易结合前沿新兴的优化算法,更新迭代数据加密策略和模型训练方式,实现安全、性能、效率间的最佳权衡。
四、电信运营商在数据流通与交易过程中的发力点
在数据流通与交易过程中,电信运营商可以提供数据、服务、安全保障和管理等全方面的支持,扮演着举足轻重的角色。
数据供应商:作为运营通信网络的主要提供者,电信运营商拥有大量用户数据和通信网络数据。可以将这些数据作为供应商提供给其他企业和合作伙伴,以支持各种数据流通和交易活动。
数据服务商:电信运营商可以提供数据处理、存储、分析和挖掘等服务,帮助企业和个人利用和管理数据。通过数据服务的方式参与数据流通和交易,并为数据的增值提供支持。
数据安全保障者:通过加强网络安全管理、数据加密和访问控制等措施,承担保护用户数据安全和隐私的责任。
数据管理者:作为运营通信网络的管理者,电信运营商可以对用户数据进行分类、整合和管理,从而建立数据管理平台,制定数据使用规范和标准,加强对数据流通和交易的监管和管理。
数据合作伙伴:电信运营商可以与其他企业、机构和平台建立合作关系,共享数据资源,促进跨行业的数据流通与交易,这种合作可以带来更广泛的数据应用和商业机会。
五、总结
总体而言,本文分析了政策严监管下,隐私计算是促进数据可信流通与安全交易所需的关键技术,指出隐私计算技术大规模商用面临的跨平台互联互通困难,以及安全、性能、效率之间难平衡问题,进而提出了以联邦学习作为隐私计算的技术底座,从而有效促进数据跨平台流通交易,实现安全可证、性能可用、效率可控,最后列举了电信运营商在数据流通与交易场景下可以担任多元化的角色。
林敏 广东联通科技创新主任委员、广东联通数字与智能化创新中心总经理
姜慧 中国联通博士后工作站