《中国移动:隐私计算应用白皮书(2021)(49页).pdf》由会员分享,可在线阅读,更多相关《中国移动:隐私计算应用白皮书(2021)(49页).pdf(49页珍藏版)》请在三个皮匠报告上搜索。
1、隐私计算应用白皮书数智移动 联合为民中国移动通信集团有限公司中国移动通信集团有限公司信息技术中心信息技术中心20212021年年1 12 2月月前言数字经济发展中,数据价值融合的需求催生了隐私计算技术的蓬勃发展。2021 年以来,隐私计算在金融、政务、医疗、交通、能源等真实商业场景中落地实施,为各行业发展数字经济带来新的契机、注入新的动能。国家层面,一方面,国务院发布 关于构建更加完善的要素市场化配置的体制机制的意见出台,首次将数据增列为生产要素,数字经济正在成为驱动我国经济实现又好又快的增长的新引擎。另一方面,数据安全法与个人信息保护法的相继发布,为各行业加强数据的合法使用与合规经营提供了指
2、引,也促进了整个数据产业的健康发展。中国移动提前在隐私计算方向布局,在推动数据安全共享、深化数据场景应用、促进数据生态合作方面不断前行,深入开展联邦学习的研究及试点实践,强化多方安全计算、可信执行环境等新技术体系,确立出一套较为完善的隐私计算安全审核机制,通过打造“中国移动隐私计算平台”与生态建立稳固的链接,深化各行业真实场景中落地实践,致力于运营商数据要素生产力释放,推动数字经济高质量发展。本白皮书以探讨隐私计算的关键技术路径为出发点,聚焦国内外的隐私计算应用场景以及移动运营商在相关领域的实践,进一步从技术、应用、法律等视角对隐私计算的发展进行了展望。期望与业界分享,共同促进隐私计算生态的创
3、新、发展、繁荣。目录FOREWORD隐私计算发展的时代背景1.1 数据要素的市场环境变化推动隐私计算技术的发展1.1.1数据流通的市场需求显著增强1.1.2数据流通中的数据安全风险加剧1.1.3隐私计算已成为数据保护的关键技术1.2 数据要素市场的政策法规完善促进隐私计算的应用1.3 数据要素市场化进程中中国移动的隐私计算实践隐私计算技术体系2.1 隐私计算的概念2.2 隐私计算的技术路线与发展脉络2.3 隐私计算的技术体系2.3.1多方安全计算2.3.2联邦学习2.3.3可信执行环境2.3.4其它隐私计算技术国外隐私计算行业实践3.1 欧洲隐私计算行业实践3.1.1政策法规3.1.2应用实践
4、3.2 美国隐私计算行业实践3.2.1政策法规3.2.2应用实践3.3 其他国家地区隐私计算行业实践3.3.1政策法规3.3.2应用实践国内隐私计算应用实践4.1 金融领域应用实践4.1.1联合风控4.1.2联合营销4.1.3反洗钱与反欺诈4.1.4保险精算4.2 政务领域应用实践4.2.1智慧城市建设4.2.2中小微企业融资需求对接4.3 医疗领域应用实践4.3.1疫情/传染病防控4.3.2全基因组关联研究 GWAS 分析4.4 其它领域应用实践4.4.1能源互联网4.4.2汽车互联网4.4.3数据跨境流动通信运营商行业隐私计算实践5.1 隐私计算平台建设5.2 金融行业隐私计算实践5.2.
5、1银行信贷智能风控5.2.2银行精准营销实践5.2.3保险智能风控实践5.2.4证券沉默用户激活5.3 智慧政务治理实践5.3.1电信反欺诈实践5.3.2智慧人口流动分析5.3.3公共安全态势感知445.4 医疗精准推荐实践5.5 其他行业隐私计算实践5.5.1汽车精准营销实践隐私计算发展趋势展望6.1 政策展望6.2 技术展望6.3 应用展望参考文献隐 私 计 算 应 用 白 皮 书(2021)01/中 国 移 动 信 息 技 术 中 心1.隐私计算发展的时代背景1.1 数据要素的市场环境变化推动隐私计算技术的发展随着数字化和信息化浪潮渗透到各行各业,我国数据服务市场已经到了前所未有的大爆发
6、阶段,数据要素市场环境也呈现出新形态:1.1.1 数据流通的市场需求显著增强伴随着 5G、物联网、云计算、工业互联网等技术迅速发展,数据量已然进入爆发增长的阶段。海量数据的合理流通释放出巨大的社会经济价值。数据如水,能形成大江大河,滋润万物生长。当前国内各行业对于数据流通的需求日趋旺盛,IDC于 2021 年 8 月在2021 年全球大数据支出指南中预测,到 2024 年国内大数据市场规模将超过 200 亿美元;毕马威于 2021 年 4 月在2021 隐私计算行业研究报告中指出,国内隐私计算技术营收服务将在 2024 年达到 200 亿人民币。1.1.2 数据流通中的数据安全风险加剧随着数据
7、科学、人工智能、云计算等技术的快速发展和应用,数据蕴含的信息和价值日益彰显。数据的核心价值在于连接和共享,数据通过跨业务、跨场景、跨行业的流通,进一步丰富数据的样本量及维度,进而催生更多的应用场景。由于数据的易删、易改、易复制等特性,不可避免形成数据泄漏、数据滥用等安全隐患。一方面,流通过程中机密数据和个人隐私存在泄漏风险和安全隐患,加剧了监管机构、数据要素市场参与主体对数据流通的担忧;另一方面,现有监管条件下,业界仍没有形成明确统一的数据权属规则,在数据流通的链条中,如何确定数据的归属方、保证数据归属方的权益,尚待进一步形成共识。1.1.3 隐私计算已成为数据保护的关键技术Gartner 在
8、 2021 和 2022 连续两年将隐私增强计算(Privacy EnhancingComputation)评为重要战略技术趋势之一。目前业界普遍共识隐私计算将成为平衡数据价值挖掘和数据隐私保护的有效工具。在数据要素市场化进程中,隐私计算作为一种核心基础技术,能够帮助数据流通建立有序可控的共享机制,促进数据要素市场的蓬勃发展。隐私计算通过融合密码学、人工智能、安全硬件等跨学科技术体系形成一套可以保障数据流通安全合规的基础设施。从应用目的上来说,隐私计算实现了在数据流通过程中对国家安全、商业机密、个人隐私等敏感信息的保护,并且助力数据安全流通、释放数据价值。隐 私 计 算 应 用 白 皮 书(2
9、021)/2中 国 移 动 信 息 技 术 中 心1.2 数据要素市场的政策法规完善促进隐私计算的应用2020 年 4 月,中共中央、国务院发布关于构建更加完善的要素市场化配置体制机制的意见,将数据同土地、劳动力、资本、技术等传统生产要素并列作为一种新型生产要素参与分配。“十四五”规划纲要提出:建立健全数据要素市场规则,统筹数据开发利用、隐私保护和公共安全,加快建立数据资源产权、交易流通、跨境传输和安全保护等基础制度和标准规范等。数据安全和隐私保护的法律法规也在加强。数据安全法和个人信息保护法的相继实施,数据要素市场的治理机制日臻完善,都将促进隐私计算技术更加深入和广泛的应用于数据流通领域,解
10、决数据流通中存在的隐私保护问题。2021 年 5 月,国家发展改革委、中央网信办、工业和信息化部、国家能源局联合印发了全国一体化大数据中心协同创新体系算力枢纽实施方案(发改高技2021709 号),明确提出布局全国算力网络国家枢纽节点,推动建设数据共享开放、政企数据融合应用等数据流通共性设施平台,试验多方安全计算、区块链、隐私计算、数据沙箱等技术模式,构建数据可信流通环境。1.3 数据要素市场化进程中中国移动的隐私计算实践在数据要素市场化进程中,隐私计算作为一种核心基础技术,能够帮助数据流通建立有序可控的共享机制,促进数据要素市场的蓬勃发展。中国移动作为信息通信领域的骨干国企,在助力经济社会转
11、型的同时,也积淀了非常有价值的数据资产,呈现出超全覆盖、超多维度、连续不间断、超大数据资产等特征。针对数据要素市场的发展,中国移动可以利用自身数据的规模优势和价值优势,构建产业生态,在公共管理、交通旅游、安全监控、欺诈防控、商圈分析、金融征信等各个领域提供数据共享服务,释放运营商数据要素生产力,从而增强为经济社会发展的数据赋能本领。中国移动于 2018 年启动隐私计算技术的研究与布局,开展联邦学习开源框架跟踪研究及试点实践,规划和建设梧桐大数据隐私计算系统,并在 2021 年正式发布“中国移动隐私计算平台”,以此为依托,将移动大数据形成社会性的资源、资产和资本。中国移动始终践行 CHBN(C,
12、移动市场;H,家庭市场;B,政企市场;N,新兴市场)大市场战略,推动隐私计算能力建设,为数据要素市场安全合规发展提供核心基础设施。中国移动将进一步发挥自身独特的能力和资源优势,与产业各界携手合作,积隐 私 计 算 应 用 白 皮 书(2021)03/中 国 移 动 信 息 技 术 中 心极推动隐私计算相关标准的编制和实施,推广隐私计算应用实践,向千行百业赋能,促进数据要素市场高质量发展,助力各行各业数字化转型。隐 私 计 算 应 用 白 皮 书(2021)/4中 国 移 动 信 息 技 术 中 心2.隐私计算技术体系2.1 隐私计算的概念隐私计算是面向隐私信息全生命周期保护的计算理论和方法,是
13、隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统1。隐私计算技术是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术体系,它涉及密码学、分布式计算、人工智能、数据科学等众多领域。与传统数据的使用方式相比,隐私计算更专注于数据使用过程和计算结果的保护,其目标是在保证数据安全的前提下实现数据价值最大化。2.2 隐私计算的技术路线与发展脉络图 1 隐私计算技术路线与发展脉络隐私计算是一个系统工程技术,来源于当代密码学、数学、硬件等多个领域。主要包括多方安全计算、同态加密、可信执行环境、联邦学习等技术,此外也包括差分隐私、零知识证明、
14、图联邦等技术。结合图 1 所示,分别简要说明隐私计算中同态加密、多方安全计算、联邦学习和可信执行环境的发展历史和标志性事件。1)同态加密技术1978 年 Ron Rivest、Leonard Adleman 和 Michael L.Dertouzos 提出同态加密问题,并在同年提出满足乘法同态的 RSA 算法。在此之前,密码学更多的研究数据在存储和传输过程中的静态安全,而同态加密问题的提出将加密技术的研究从静态引向动态,是理论上的巨大革新,也开创了隐私计算的先河。2009 年,Gentry提出了首个实用的全同态加密算法,标志着全同态计算时代的开始。2017 年,国际同态加密标准委员会成立,标志
15、着同态加密在全球进入高速发展阶段。2)多方安全计算技术隐 私 计 算 应 用 白 皮 书(2021)05/中 国 移 动 信 息 技 术 中 心1981 年,Rabin 首次提出通过 Oblivious Transfer(OT)协议实现机密信息交互,奠定多方安全计算理论基础。1982 年,姚期智教授在 1981 年 OT 协议信息交互基础上,在他的论文Protocols for Secure Computations中提出“百万富翁问题“,即两个百万富翁在没有可信第三方、不透露自己财产状况的情况下,如何比较谁更富有,这标志着多方安全计算技术的产生。1986 年,姚期智教授提出混淆电路技术,实现
16、了第一个多方(两方)安全计算方案。1987 年,Goldreich 等人提出了基于电路的秘密共享方案 GMW,并将其应用于多方安全计算。3)联邦学习技术1996 年 Cheung 首次提出在分布式数据库中,实现关联规则(AssociationRules)挖掘,奠定联邦学习的一些基础概念。2013 年,王爽教授团队在 SCI 学术期 刊 Journal of Biomedical Informatics 发 表 的 Expectation PropagationLogisticRegression(EXPLORER):Distributedprivacy-preservingonlinemode
17、l learning论文中提出了数据“可用不可见”问题。2017 年谷歌在官方博客中发文,提出了联邦学习在移动端的应用。2018 年,杨强教授团队提出安全联邦迁移,并于 2020 发表了安全联邦迁移学习论文,结合联邦学习和迁移学习并发布 FATE开源系统。4)可信执行环境2006 年,OMTP 工作组率先提出一种双系统解决方案:即在同一个智能终端下,除多媒体操作系统外再提供一个隔离的安全操作系统,这一运行在隔离硬件之上的隔离安全操作系统用来专门处理敏感信息以保证信息安全,该方案是可信执行环境的前身。可信执行环境(Trusted Execution Environment,TEE),也被称为机密
18、计算(Confidential Computing)。2011 年,GlobalPlatform(全球最主要的智能卡多应用管理规范组织,简称为 GP)开始起草制定相关的 TEE 规范标准,并联合一些公司共同开发基于GP TEE标准的可信操作系统。2015年Intel发布支持TEE的CPU,2016年Intel TEE技术和联邦学习结合极大推进了TEE技术在隐私安全方面的应用,近年来国内厂家先后发布基于 TEE 的隐私计算解决方案,已经在商业应用中被广泛使用。目前,隐私计算概念已经被业界广泛接受,开始被应用到多个实际商业系统中。同时,硬件、软件、算法领域都在不断进行研究改进,以满足日益增长的业务
19、需求。2.3 隐私计算的技术体系隐 私 计 算 应 用 白 皮 书(2021)/6中 国 移 动 信 息 技 术 中 心目前业内采用的主流隐私计算技术包括三类:多方安全计算、联邦学习和可信执行环境。2.3.1 多方安全计算多方安全计算(Secure Multi-Party Computation,MPC)由姚期智教授于1982 年提出,主要探讨在不泄露隐私的条件下,各参与方利用隐私数据参与保密计算,共同完成某项计算任务。多方安全计算是密码学的重要分支之一,目前主要用于解决各个互不信任的参与方之间的数据隐私和安全保护的协同计算问题,以实现在不泄露原始数据的条件下为数据需求方提供安全的多方计算2。
20、多方安全计算包括多个技术分支,主要包括秘密分享、不经意传输、混淆电路、同态加密、零知识证明等。1)秘密分享秘密分享(Secret Sharing)由著名密码学家 Shamir 和 Blakley 于 1979 年分别提出34,是现代密码学的重要分支。直观的讲,秘密分享是指将秘密以适当的方式拆分,拆分后的每一个份额由不同的参与方管理,每个参与方持有其中的一份,协作完成计算任务(如加法和乘法计算)。单个参与方只拥有部分的秘密值,有且仅当足够数量的秘密值组合在一起时,才能够重新构造被共享的秘密。在秘密共享系统中,攻击者必须同时获得一定数量的秘密碎片才能获得密钥,系统的安全性得以保障;另一方面,当某些
21、秘密碎片丢失或被毁时,利用其它的秘密份额仍能够获得秘密信息,系统的可靠性得以保障。2)同态加密同态加密(Homomorphic Encryption,HE)是一种通过对相关密文进行有效操作(不需获知解密秘钥),从而允许在加密内容上进行特定代数运算的加密方法5。其特点是允许在加密之后的密文上直接进行计算,且计算结果解密后和明文的计算结果一致。在多方安全计算场景下,参与者将数据加密后发送给统一的计算服务器,服务器直接使用密文进行计算,并将计算结果的密文发送给指定的结果方。结果方再将对应的密文进行解密后,得出最终的结果。3)不经意传输不经意传输(Oblivious Transfer,OT)是由 Ra
22、bin 在 1981 年提出的一种保护隐私的两方计算协议6。后被拓展为多方计算协议。根据协议,每次发送方发送多条信息,接收方只能获得自己想要的一条信息。协议使得接收方除选取的内容外,无法获取剩余数据,并且发送方也无从知道被选取的内容。不经意传输对双方信息隐 私 计 算 应 用 白 皮 书(2021)07/中 国 移 动 信 息 技 术 中 心的保护可用于数据隐私求交等场景。通过不经意传输,参与双方不能获取到对方的任何数据信息,结果方仅仅只可以获取到交集数据。不经意传输技术常常应用于隐私信息检索(Private Information Retrieval,PIR),也称为匿踪查询等业务中。4)混
23、淆电路混淆电路(Garbled Circuit,GC)是姚期智教授提出的多方安全计算概念,其思想是通过布尔电路的观点构造安全函数计算,使得参与方可以针对某个数值来计算答案,而不需要知道它们在计算式中输入的具体数字。GC 的多方共同计算是通过电路的方式进行的,加法电路、比较电路、乘法电路等,所以相关技术称为混淆电路7。混淆电路可以看成一种基于不经意传输的两方安全计算协议,它能够在不依赖第三方的前提下,允许两个互不信任方在各自私有输入上对任何函数进行求值。其中心思想是将计算电路分解为产生阶段和求和阶段,两个参与方各自负责一个阶段,而在每一阶段中电路都被加密处理,所以任何一方都不能从其他方获取信息,
24、但仍然可以根据电路获取结果10。5)零知识证明零知识证明(Zero-Knowledge Proof,ZKP)指的是证明者能够在不向监控者提供任何有用信息的情况下,使验证者相信某个论断是正确的。零知识证明实际上是一种涉及双方或更多方的协议,即双方或更多方完成一项任务需要采取的一系列步骤。证明者需要向验证者证明并使其相信自己知道或拥有某一消息,但证明过程不向验证者泄露任何关于被证明消息的信息。2.3.2 联邦学习联邦学习(Federated Learning,FL)是一种具有隐私保护属性的分布式机器学习技术,其应用场景中包括?个参与方及其数据?,该技术通过不可逆的数据变换后,在各个参与方之间交换不
25、包含隐私信息的中间运算结果,用于优化各个参与方相关的模型参数,最终产生联邦模型?,并将?应用于推理2。联邦学习的核心思想就是在多个数据源共同参与模型训练时,不需要进行原始数据流转的前提下,仅通过交互模型中间参数进行模型联合训练,原始数据可以不出本地。这种方式实现数据隐私保护和数据共享分析的平衡,即“数据可用不可见”的数据应用模式。按照数据集合维度相似性构成的特点,业界普遍将联邦学习分为横向联邦学习、纵向联邦学习与联邦迁移学习。隐 私 计 算 应 用 白 皮 书(2021)/8中 国 移 动 信 息 技 术 中 心特征特征特征样本样本样本纵向联邦学习横向联邦学习ABAABB联邦迁移学习图 2 联
26、邦学习技术的分类1)纵向联邦学习纵向联邦学习对应各个联邦成员提供的数据集样本有较大的交集,特征具有互补性的情形。纵向联邦学习中,模型参数分别存放于对应的联邦成员内,并通过联邦梯度下降等技术进行优化2。纵向联邦学习适用于各个参与方有大量的重叠样本,但其特征空间不同的情形。典型的案例是跨行业/跨机构的数据联合建模,如银行和电信运营商,其用户重叠度高,数据维度差异大,通过纵向联邦学习可以在保护数据隐私的条件下构建满足各种需求的模型。2)横向联邦学习当有着相同特征的样本分布于不同的参与方时,在能够实现综合运用各方数据的同时,保证各方数据隐私的算法称为横向联邦学习2。横向联邦学习的目的是要利用分布于各方
27、的同构数据进行机器学习建模,其典型应用场景包括医疗数据建模、业务相似的同行业、不同用户的数据联合建模等。3)联邦迁移学习横向联邦学习和纵向联邦学习要求所有的参与方具有相同的特征空间或样本空间,从而建立起一个有效的共享机器学习模型3。当参与方数据不满足上述需具有相同的特征空间或样本空间条件时,联邦学习可以结合迁移学习技术,使其可以应用于更广泛的业务。这种组合称为联邦迁移学习。2.3.3 可信执行环境1)可信执行环境技术介绍可信执行环境是计算平台上由软硬件方法构建的一个安全区域,可保证在安全区域内部加载的代码和数据在机密性和完整性方面得到保护。其目标是确保一个任务按照预期执行,保证初始状态和运行时
28、状态的机密性、完整性。隐 私 计 算 应 用 白 皮 书(2021)09/中 国 移 动 信 息 技 术 中 心图 3 可信执行环境发展历程2)可信执行环境主流技术方案及产品(1)国外可信执行环境相关产品ARM、Intel 和 AMD 公司分别于 2006、2015 和 2016 年各自提出了硬件虚拟化技术 TrustZone、Intel SGX 和 AMD SEV 及其相关实现方案,也是目前社区和生态较为成熟的几类方案。(2)国内可信执行环境相关产品中关村可信计算产业联盟 2016 年发布了 TPCM 可信平台控制模块,为国产化可信执行环境 TEE 技术的发展起到了指导作用。国内的 CPU
29、芯片厂商海光、飞腾、兆芯、鲲鹏分别推出了支持可信执行环境的技术 Hygon-CSV、飞腾 TrustZone、ZX-TCT 和鲲鹏 TrustZone。3)目前主流 TEE 技术对比目前,以 Intel SGX 和 ARM TrustZone 为基础的 TEE 技术起步较早,社区和生态都已比较成熟。但国产化的芯片厂商在 TEE 方向上已经开始发力,形成我国自主可控的完整社区和生态指日可待。表1 目前主流TEE技术对比技术方案Intel SGXTrustZoneAMD SEV 海光 CSV飞腾TrustZone兆芯 TCT发布时间201520052016202020192017指令集架构X86_
30、64ARMX86_64X86_64ARMX86_64是否支持任意代码运行是是是是是是硬件安全有无有有无有隐 私 计 算 应 用 白 皮 书(2021)/10中 国 移 动 信 息 技 术 中 心密钥完整性认证与封存支持不支持支持支持不支持支持内存加密是否是是否否内存完整性保证支持不支持不支持支持不支持支持TEE 安全I/O不支持支持支持支持支持支持可用内存空间1T系统内存系统内存系统内存系统内存系统内存TCB硬件:CPUPackage软件:Enclave 内的代码实现硬件:安全虚拟核软件:安全世界 OS 和TA硬件:AMDsecureprocessor软件:虚拟机镜像硬件:海光 SME软件:虚
31、拟机镜像硬件:安全虚拟核软件:安全世界 OS 和TA硬件:CPU&TPCM2.3.4 其它隐私计算技术1)差分隐私差分隐私(Differential Privacy,DP)是 Dwork 在 2006 年针对统计数据库的隐私泄露问题提出的一种新的隐私保护方法定义9,主要原理是通过在统计结果中加入随机噪声来避免由于数据变化导致的结果差异而泄露数据中的个人隐私信息。差分隐私通过引入扰动或噪声实现对于数据隐私的保护,可以用在对联邦建模的过程中或者建模结果加入噪声,保证攻击者难以从建模过程中交换的统计信息或者建模的结果反推出敏感的样本信息。2)图联邦图联邦(Graph Federated Learni
32、ng)是一类将新型的联邦学习技术与图计算技术相结合的安全建模方法,用于多方机构联合在不暴露各自图数据隐私的情况构建诸如图神经网络(Graph Neural Network,GNN)、谱聚类(Spectral Clustering,SC)等图模型。根据应用场景的不同,现有图联邦算法主要分为非关联图联邦、横向关联图联邦、纵向关联图联邦以及节点关联图联邦。隐 私 计 算 应 用 白 皮 书(2021)011/中 国 移 动 信 息 技 术 中 心图 4 图联邦示意图隐 私 计 算 应 用 白 皮 书(2021)/12中 国 移 动 信 息 技 术 中 心3.国外隐私计算行业实践近年来,欧美各国及其他
33、地区在隐私计算的政策、技术和业务领域也进行了积极广泛的探索实践。2019 年,信息技术研究分析机构 Gartner 首次将隐私计算列为处于启动期的关键技术;2020 年,Gartner 又将隐私计算列为 2021 年企业机构九大重要战略科技之一,并预测隐私计算将迅速得到落地应用,预计到 2025 年应用范围将覆盖全球一半的大型企业机构。国外企业对隐私计算应用的研究起步较早。第一家专攻多方安全计算解决方案的技术厂商 Partisia 于 2008 年在丹麦成立,主要为客户商务合同、加密拍卖等场景提供安全方案。谷歌、微软、Facebook、Intel、IBM 等科技巨头也纷纷加入隐私计算赛道,并在
34、不同技术路线上发力:微软主要研究多方安全计算,谷歌提出联邦学习概念,Intel 致力于可信执行环境实现方案 Intel SGX 的打造等。此外,不少初创公司也入局隐私计算领域,如专注于搭建自研多方安全计算平台的 Sharemind 和 Privitar,基于密码学开发 SecurePlus 平台的 Duality,基于同态加密技术实现深度神经网络端到端加密的 Zama,构建保护企业信息的密码学基础架构设施的 Unbound,率先推出加密 XOR Secret Computing 的 Inpher,通过密钥管理和保护新标准防止关键盗窃和滥用的 Sepior,基于多方安全计算独特安全模型的 Sec
35、ata,在隐私管辖范围内安全私密查询数据的 Enveil,通过隐私增强加密技术驱动数据协作的 Ntharty 等。在隐私计算标准制定方面,电气和电子工程师协会 IEEE 标准组 IEEE联邦学习系 统 架 构 和 应 用 指 南 (IEEE 3652.1-2020-IEEE Guide for ArchitecturalFramework and Application of Federated Machine Learning)于 2021 年 3 月19 日发布。该标准系统性阐述了联邦学习的定义、概念、分类、算法框架规范、使用模式和使用规范等方面,建立了联邦学习的需求分析模板,厘定了联邦学
36、习性能及安全测评准则,并将联邦学习的激励机制设计理论应用于各种实际场景中。除 IEEE外,国际标准化组织 ISO、国际电信联盟 ITU 等均在开展隐私计算相关领域的技术标准研制工作。3.1 欧洲隐私计算行业实践3.1.1 政策法规欧盟于 2016 年发布的通用数据保护条例(GDPR),于 2018 年 5 月 25 日正式生效,是世界范围内目前较为全面广泛的数据隐私保护条例。2020 年 7 月,欧隐 私 计 算 应 用 白 皮 书(2021)013/中 国 移 动 信 息 技 术 中 心盟法院(CJEU)判定欧盟-美国隐私盾无效,美国无法再根据 GDPR 接收来自欧盟各机构、机关、办事处、和
37、专门行政部门(代理机构)的个人数据而无需额外的授权。为寻求合规与发展的平衡,欧盟数据保护委员会(EDPB)于 2020 年 11 月通过“关于补充传输工具以确保符合欧盟个人数据保护水平的措施的建议 01/2020”。在 2021 年 1 月 28 日,欧盟网络安全局(ENISA)发布数据保护和隐私中网络安全措施的技术分析,该技术指南将多方安全计算确定为适用于复杂数据共享方案的高级技术解决方案。3.1.2 应用实践在医疗领域,欧盟牵头组织开展了“机器学习分类帐编排的药物发现”(MachineLearning Ledger Orchestration for Drug Discovery,简称 M
38、ELLODDY)项目:由 10 家顶级药企在内的共 17 家合作伙伴构建了一个建模平台,在该平台上可以利用多家制药企业的数据,创建更准确的模型,以确定药物开发最有效的化合物。MELLODDY 项目的参与者 Owkin,作为医疗大数据协作平台,通过联邦学习和 AI 技术,在保护患者隐私和专有数据的前提下推进药物研究,以优化临床试验,改善患者的治疗效果。Owkin 构建了专有的联邦学习平台 Owkin Connect,为医院、研究中心、技术合作伙伴和生命科学公司之间的合作提供支持。Owkin Connect 的分布式架构和联合学习功能使数据科学家能够安全地连接到分散的多方数据集并训练 AI 模型,
39、而无需汇集数据。图 5 Owkin Connect 架构概览14英国的 OpenSAFELY 是一个安全、透明、开源的软件平台,用于分析电子健康记录数据,部署在英国国家医疗服务体系(NHS)两家最大电子健康记录提供商的安全数据中心内,以支持对 COVID-19 紧急情况的紧急研究。在 COVID-19 大流行期间,OpenSAFELY 安全分析平台通过隐私增强技术对 2400 万患者的记录进行分隐 私 计 算 应 用 白 皮 书(2021)/14中 国 移 动 信 息 技 术 中 心析,识别与新冠疫情相关的危险因素,为公共卫生做出重大贡献。西班牙的 Sherpa.ai 公司在 2020 年推出
40、的联邦学习和差分隐私框架,允许参与者在不共享自身数据的情况下进行协作学习,应用场景涉及多个领域:在医疗业,使用安全和私密的患者数据改进诊断和护理;在银行业,在不共享客户数据的情况下保持资金安全;在学术界,助力大学和研究机构整合研究成果同时确保数据私密性;在服务业,构建隐私保护的提供预测服务的智能服务助理。爱沙尼亚的 Cybernetica 公司开发了用于安全处理机密数据信息的数据分析平台 Sharemind,以及分别基于可信执行环境与多方安全计算技术的两款隐私计算产品 Sharemind HI 和 Sharemind MPC。通过 Sharemind 平台,Cybernetica 公司可助力国
41、家更轻松地发现税务和增值税欺诈,帮助企业创建私有行业市场报告,让CEO 可以在不披露商业机密的情况下了解到自家公司与其他公司的对比情况。3.2 美国隐私计算行业实践3.2.1 政策法规美国各州有独立的数据隐私法,如加利福尼亚州于 2018 年通过的加州消费者隐私法(CCPA),弗吉尼亚州于 2021 年通过的 消费者数据隐私保护法(CDPA),科罗拉多州于 2021 年通过的 科罗拉多州隐私法(CPA)。美国共和党提交的 2019美国国家安全与个人数据保护法案,以保护本土企业和国民数据为切入口,限制跨境数据流向,严格管控数据的传输和存储,具有鲜明的、针对性的数据保护意识。美国白宫行政管理和预算
42、办公室(OMB)2019 年发布的联邦数据战略和 2020 年行动计划描述了美国未来十年的数据愿景,将“数据作为战略资源开发”的核心目标。3.2.2 应用实践Google 在 2017 年提出“联邦学习”概念,并应用于自家的输入法中,通过Gboard 联邦学习改善输入下一词的预测效果。2019 年 Google 通过发布论文对可扩展大规模移动端联邦系统进行描述,用于改进谷歌输入法的自动关联与推荐,同年 8 月开源一个新型多方安全计算开源库 Private Join and Compute,结合了隐私求交和同态加密两种基本的隐私计算技术,助力各组织和隐私数据集协同工作,并可针对特定项目使用随机密
43、钥进行高度加密,进一步提高隐私性。Google 的联邦学习从自给自足的 To C 模式逐步发展到企业之间互联互通的 To B 模式。隐 私 计 算 应 用 白 皮 书(2021)015/中 国 移 动 信 息 技 术 中 心图 6 Gboard 联邦学习过程15NVIDIA 在 2019 年 RSNA 大会上推出 NVIDIA Clara FL,它利用分布式协作型学习技术,将患者数据保存在医疗服务机构内部。通过 NVIDIA Clara FL 框架,NVIDIA 与 20 家医院合作构建了 AI 模型,可以预测患者的氧气需求,以更好地对COVID-19 患者进行分类。NVIDIA 除了推出自己
44、的联邦学习产品还扶持了多家涉及联邦学习业务的公司,如 Rhino Health、Doc.ai 等。Facebook 在 2019 年推出了基于 Pytorch 的多方安全计算框架 CrypTen,深度学习模型可以使用 Crypten 直接转换为使用多方安全计算的深度学习模型,从而保护数据持有者和模型开发者的隐私信息。微软研究院自 2011 年开始大规模推进多方安全计算研究,从两方逐渐拓展至三方和不存在交互行为的多方计算。2018 年,微软印度研究院推出 EzPC 项目,作为一个高效、可扩展的 MPC 协议,EzPC 是一个加密成本感知编译器,使用算术和布尔电路组合,通过高级语言执行计算,支持神
45、经网络训练和预测等复杂算法。微软研究院于 2020 年在 41 届 IEEE S&P 上发表开源项目 CrypTFlow,该项目可以将Google 公司的 TensorFlow 深度学习模型转换为多方安全计算的形式。Consilient 公司结合联邦学习技术与反洗钱和反恐融资(AML/CFT)专业知识,致力于为金融机构提供安全、动态和有效的解决方案,协助打击打击欺诈、洗钱和资助恐怖主义等日益增多的金融犯罪。始于 2014 年 4 月,在以患者为中心的成果研究所(Patient-CenteredOutcomes Research Institute(PCORI)资助下,以患者为中心的可扩展的国家
46、级有 效 性 研 究 网 络(patient-centered SCAlable National Network forEffectiveness Research(pSCANNER)利用联邦学习等隐私计算技术,通过“数据可用不可见”的方式,连接了 17 家现有医疗卫生系统的数据源,覆盖了超过 3700万患者。该项目通过创建一个大型、具有高度代表性的医疗网络来辅助临床结果研隐 私 计 算 应 用 白 皮 书(2021)/16中 国 移 动 信 息 技 术 中 心究,提高国家进行比较有效性研究(Comparative Effectiveness Research)的能力。由于传统的数据共享方法
47、经常会影响研究人员和临床医生在护理点访问、汇总和分析患者记录的能力,pSCANNER 通过使用可扩展的联邦式网络基础设施以及新颖的隐私计算方法克服了这些障碍,从而能够对从多中心临床数据库收集的数据进行近乎实时的比较有效性研究和前瞻性分析。图 7 pSCANNER 是一个联合临床数据研究网络163.3 其他国家地区隐私计算行业实践3.3.1 政策法规除以上国家地区外,还有不少国家地区越来越重视个人隐私保护,并出台了一系列关于个人隐私保护的法律法规,如:巴西的通用数据保护法(LGPD)、印度的个人数据保护法案(PDPB)、加拿大的2020 年数字宪章实施法案、泰国的个人数据保护法(PDPA)、南非
48、的 个人信息保护法(POPIA)、新西兰的 2020年隐私法、日本的个人信息保护法、韩国的个人信息保护法(PIPA)等。3.3.2 应用实践澳大利亚的 Presagen 公司致力于连接全球的医疗数据,目前该公司已推出第一款产品 Life Whisperer,该产品通过联邦 AI 算法来帮助筛选试管婴儿的胚胎,在评估胚胎活力方面的准确度比专家胚胎学家进行的传统形态学评估高 25%以上。隐 私 计 算 应 用 白 皮 书(2021)017/中 国 移 动 信 息 技 术 中 心图 8 Life Whispere 预测试管婴儿胚胎评分值17以色列的初创公司 Lynx.MD 通过隐私计算技术专注于构建
49、一个使医疗机构、制药公司和医疗技术公司能够以安全、合法和保护隐私的方式取得医疗数据的临床数据共享平台,以实现快速共享和分析影像、医生笔记、设备数据、医疗记录等。总体来看,国外隐私计算发展呈现如下特点:各国法规政策制定逐渐成熟,标准体系建设逐渐完善;国际科技企业在学术研究和开源生态的建设上更为活跃,在各条技术路线上均进行了有效尝试与创新;各国创业企业呈现百家争鸣、百花齐放的局面,商业化产品形态以医疗为主,但产业生态尚未形成激烈竞争或垄断格局。隐 私 计 算 应 用 白 皮 书(2021)/18中 国 移 动 信 息 技 术 中 心4.国内隐私计算应用实践近年来我国数据相关立法进程不断加快,相继出
50、台数据安全、个人信息保护领域的法律法规。中华人民共和国数据安全法 中华人民共和国个人信息保护法两部重要法律于今年的正式颁布实施,更是完善了国家数据相关立法的顶层设计。隐私计算作为数据应用与安全的平衡支点正成为国内数据流通领域最受关注的技术热点,目前国内已就金融、医疗、政务等行业领域开展相应场景实践。4.1 金融领域应用实践随着我国金融科技的快速发展,大数据技术与金融业务深度融合已经成为推动金融业转型升级的新引擎,有效助力金融业服务实体经济。隐私计算技术的出现让金融数据与其他跨领域数据的融合应用不断创新,使金融行业数据的整合、共享和开放成为新的趋势,给金融行业提供了崭新的发展机遇和强大的发展动力
51、。4.1.1 联合风控以往银行对信贷风险评估多基于历史信贷数据和交易数据,通过整合内外部数据资源进行风控预测。面对金融行业数据的敏感性和数据隐私保护的强监管态势,数据孤岛问题日益影响金融机构的外部数据合作,而数据又是影响风控效果的核心要素。通过隐私计算技术引入跨行业的用户、企业特征,进行联邦建模、联邦预测,可以有效解决跨机构合作中数据隐私与数据共享的矛盾,打破数据壁垒,丰富金融场景数据维度,在双方或多方合作中保障数据价值交换时的数据安全。另外,利用多方安全计算技术可以实现在数据提供方不获取查询内容的情况下,以隐私信息检索方式增强行业的风控质量,既实现了敏感数据不出库、不泄漏,又保障了多方数据的
52、安全共享。图 9 隐私计算下的三要素核验召回隐 私 计 算 应 用 白 皮 书(2021)019/中 国 移 动 信 息 技 术 中 心在实际场景中,通过联合多方数据,使用隐私计算技术,对现有风控模型的精准度提升具有显著的效果。例如在需要进行三要素核验的银行信用卡办理环节,若按照原有的三要素一致性匹配校验规则,使用亲友手机号的用户会被直接拒绝准入;而如果通过隐私计算技术引入运营商数据进行社交亲密度感知,则可对原有的三要素核验风控规则做出调整,对原有三要素被拒用户进行召回,弥补三要素校验风险识别过程中风控拦截的误伤,提升风控策略的有效性。4.1.2 联合营销随着大数据及人工智能的飞速发展,应用于
53、金融营销的数据维度不断丰富,单一金融机构本身的用户画像已经无法满足精准营销的要求,亟需联合多方机构、企业的数据丰富用户画像,提升营销效果。但由于数据隐私保护等相关法律法规的日趋严厉,各方数据无法出私域,限制了多方机构间的数据合作,使精准营销的发展陷入瓶颈。通过隐私计算技术可以对多方数据进行联合建模,在保障数据安全和数据不出私域的情况下,加强不同金融机构之间,以及金融机构与其他第三方机构间的数据价值融合,优化营销模型。金融机构为了更好地服务客户、提升服务质量,会常规性引入外部名单性产品进行客群的质量判断和风险判断。但考虑到原始数据交互的模式既无法保护用户隐私,同时也无法避免数据被缓存,金融机构已
54、逐步向“隐私信息检索”的方式迁移。例如在提供个性化服务时,为了有效利用客服团队的资源,需要对重点客户进行定向化的贴身服务。通过隐私信息检索的方式,可对运营商提供的 VIP 客群清单进行用户隐私受保护模式下的查询,即在不暴露用户个人信息的情况下,完成命中与否的判断。然后以提供差异化服务方式有效利用有限客服资源进行最大化的客户价值实现。金融机构在拓展其自身业务过程中,使用隐私计算能力融合多方数据并与其营销能力整合的模式也具有显著的效果。例如,金融机构与流量平台进行数据融合后优化投放客群筛选,提升响应率模型;同时,其结合运营商数据将风控模型前置,对高净值客群进行提前筛选,并与响应率模型结合,有效提升
55、营销全流程的转化率。隐 私 计 算 应 用 白 皮 书(2021)/20中 国 移 动 信 息 技 术 中 心图 10 隐私计算增强下的投放模型与风险模型前置4.1.3 反洗钱与反欺诈近年来新的洗钱犯罪形式不断涌现,洗钱犯罪手段日趋智能和隐蔽。金融行业传统的反洗钱模型为基于内部交易数据、关联账号等建立的反洗钱策略集合,其数据的覆盖面较弱导致模型性能普遍偏低。随着我国的反洗钱监管理念不断向智能化风险识别的转变,隐私计算技术在反洗钱中发挥的作用愈益显著。通过隐私计算技术融合其余行业与金融行业的数据价值,同时满足各方隐私保护的合规要求,如将异地跨国通话数、位置轨迹跨境次数、违法网站访问情况等运营商数
56、据特征与金融机构沉淀的洗钱用户数据进行融合,通过纵向联邦建模、多方安全计算技术,显著提升反洗钱模型的风险识别性能。在反欺诈方面,在保障隐私数据安全的前提下,利用多方安全计算、图联邦等技术,结合互联网、运营商数据的社交关系属性,可准确鉴定关系链条上的欺诈风险,实现对诈骗犯罪团伙的识别。此外,银行对客户信贷资金流向监控始终会有着“跨行难”的瓶颈,同样可利用多方安全计算与图联邦技术整合结算数据,共享并汇总客户的交易流水后形成跨行资金流向网络,为贷后资金流向提供更多维度的判断,在信贷诈骗识别方面起到显著的作用。4.1.4 保险精算保险行业大数法则决定了保险产品的定价与数据密不可分,而保险机构本身所拥有
57、的数据无论从维度还是总量上来看都比较有限,需要引入如医疗数据、互联网消费数据、通讯类数据、车联网数据等大量外部数据,辅助完成用户画像补全及保险精算模型构建。在数据安全和隐私保护的法规政策日益趋严的背景下,传统的数据包传输或通过 API 进行数据标签调用的方式在安全性、合规性以及商业价值保护等问题上均引发了保险机构及外部数据提供方的担忧。随着隐私计算技术的不断发展及隐私计算平台易用性的提升,基于隐私计算的保险精算模型构建日益受到保险机构的青睐。例如,在保险机构进行保险产品设计及精算定价过程中,隐私计算技隐 私 计 算 应 用 白 皮 书(2021)21/中 国 移 动 信 息 技 术 中 心术可
58、为保险机构安全链接更丰富的外部数据资源,在充分发挥多方数据融合价值的同时最大化保障保险机构及数据提供方的数据安全及数据价值。目前,国内多家大型保险集团、互联网保险公司等均在积极探索和推进相关领域的应用。4.2 政务领域应用实践隐私计算技术能在保障政务数据隐私安全的前提下,实现政府机构内部数据价值安全共享、政务数据及社会数据的安全融合,进一步盘活政务数据资产、实现政务数据价值开放流通,有助于提高智慧城市建设及治理能力,增强人民群众的获得感、幸福感和安全感。4.2.1 智慧城市建设近年来,智慧城市理念在全国范围内得到积极倡导和实践。智慧城市建设是通过推广和应用信息技术及智能技术,达到全面提高社会发
59、展与管理水平、经济效率、企业竞争力和人民生活质量的目的的过程。在实际建设过程中,不同政务机构数据、企业数据往往分散在各机构内部,各机构数据独立存储、独立治理、独立维护。税务、公安、教育、医疗等垂管机构机构间普遍存在数据标准不统一、数据共享不足、开放利用不够等问题。故各地方政府希望通过数据共享交换平台等形式来破解数据割裂的问题。通过隐私计算技术,可以在原始数据不出私域的情况下,对不同机构的数据进行联合建模、联合统计等,实现跨地域、跨机构、跨部门间数据的安全融合,释放政务数据价值。在保护个人信息安全、企业商业机密安全的前提下,建立政务数据共享开放的安全渠道,同时为各机构行政审批事项梳理和业务流程再
60、造提供支持,提升城市管理与公共服务能力,优化治理效率。图 11 基于隐私计算的政务共享开放平台4.2.3 中小微企业融资需求对接隐 私 计 算 应 用 白 皮 书(2021)/22中 国 移 动 信 息 技 术 中 心截止到 2020 年,中小微企业占据了企业总数的 99%,其解决了 80%以上的城乡就业人口问题,负担了 50%以上的税收。但银行等金融机构面对中小微企业信贷需求时,由于缺乏企业生产经营状况等有效数据,难以准确评估中小微企业信贷风险,从而导致中小微企业融资贵、融资慢等问题。政务数据是评价中小微企业信用风险的重要数据来源。通过隐私计算技术,能够将社保、税务、工商、司法等更多有价值的
61、底层政务数据能力定向开放给银行等金融机构。在各方数据都不出本地的前提下,金融机构能够基于多源、多维度数据建设更为精准的风控/营销模型,解决中小微企业信贷申请过程中信息不对称、不透明的问题,实现政务数据安全对外赋能,助力中小微企业和金融机构的有效融资撮合。各地方金融局、大数据局联合其他委办局及本地银行基于隐私计算平台搭建的企业融资对接服务平台,能够收拢大量满足当地小微企业个性化需求的银行信贷产品,优化和创新银政企融资服务对接流程及服务模式。该平台通过隐私计算技术打通地方政务及第三方机构数据,形成多维度企业画像,帮助地方政府主动对本地中小微企业进行信用模型初筛评价,将优质客户批量推荐给银行,降低银
62、行获客成本,使银行服务模式由被动转为主动,畅通企业“首贷”渠道。同时,也实现政府惠企纾困政策平稳衔接。图 12 中小微企业融资需求对接平台4.3 医疗领域应用实践医疗平台集聚了最私密的个人数据,其为高价值的生产要素。同时,医疗数据的安全应用被认为是对于数据隐私要求最高的场景。如何联合院内诊疗数据、生信检测数据、医保数据、公卫/疾控数据等医疗数据,实现医疗领域应用场景创新是当前医疗领域共享协作遇到的最大问题。通过隐私计算技术,可在数据隐私保护和数隐 私 计 算 应 用 白 皮 书(2021)23/中 国 移 动 信 息 技 术 中 心据安全的前提下解决医疗数据价值流通障碍问题,保证数据不出本地同
63、样实现应用和数据价值输出。4.3.1 疫情/传染病防控在疫情/传染病防疫过程中,跨部门跨省市数据共享意愿不强、信息交互手段不足,导致公共服务数据来源单一,进而影响数据分析准确性,使区域联防能力无法提升。运用隐私计算技术通过多方数据联合,建立健康医疗数据安全节点、政务数据安全节点。并且各节点能够与第三方企业节点的地理位置、互联网搜索数据、人口迁徙数据等敏感数据通过联邦学习方式实现政企数据融合,进而以在节点之间数据协同的方式建立覆盖医疗机构、各级各类学校、机关企事业、机场、车站、大型商超、集贸市场等重点单位重点场所的监测网络,做到传染病疫情的早发现、早报告、早处置,提高疫情实时分析、集中研判的能力
64、。4.3.2 全基因组关联研究 GWAS 分析全基因组关联研究(Genome-Wide Association Studies,GWAS)是指从人类全基因组范围内找出存在的序列变异,即单核苷酸多态性(Single NucleotidePolymorphisms,SNPs),并筛选出与疾病相关的 SNPs,以帮助进行疾病诊断或是预防的研究方法。它常用于复杂疾病研究,包括肿瘤、糖尿病和高血压等。利用 GWAS对遗传机制的研究有助于开发新药物、发展新疗法和开展预防工作,提高整体国民健康水平。由于基因数据具有个人识别性,一旦泄露将造成难以预计的损失,且伤害会蔓延至信息遭泄露个体的血亲,“强直性脊柱炎
65、GWAS 分析”项目18基于隐私计算技术保证了数据可用情况下的不泄露。该项目联合了全国多家医院、科研机构、基因库等单位的基因数据,使用隐私计算技术进行不分享明文数据(个体基因数据)的GWAS 分析,解决了 GWAS 依赖大量基因数据的积累、样本量不足等各项 GWAS研究难题。4.4 其它领域应用实践4.4.1 能源互联网面对全球气候变暖问题,我国明确在 2030 年前和 2060 年前分别实现碳达峰和碳中和。目前,电力和交通的碳排放量约占全行业碳排放量的 70%,推动新能源汽车产业发展已成为节能减排的关键抓手。而电动汽车充电负荷具有显著随机性,其隐 私 计 算 应 用 白 皮 书(2021)/
66、24中 国 移 动 信 息 技 术 中 心大规模并网必将影响电力系统运行的稳定性和安全性,故电动汽车负荷分析与预测成为近年能源领域的研究热点。一般而言,电动汽车的充用电数据掌握在多个主体手中,考虑到数据的安全和价值,各方通常只对外提供脱敏后的统计分析数据,致使任意一方难以基于多方数据开展用户画像和数据建模。最终导致现有基于部分数据采用专家经验、数据挖掘等方法建立的负荷分析与预测模型,由于样本不充足、特征不显著难以发挥预期成效。隐私计算技术的问世将可有效解决各方主体所掌握的充用电数据无法开放的问题。利用联邦学习、多方安全计算等新型隐私计算技术,在各电力机构原始数据不出域、不直接交换的基础上,安全
67、高效地协同使用各方数据,合法合规地进行电力大数据协同建模与分析,构建充电桩、充电站、充电网的多粒度用电画像,建立城市电动汽车负荷分析与预测模型,解决数据隐私安全、跨域数据协同应用和数据价值挖掘的难题。4.4.2 汽车互联网据公安部统计,截至 2021 年 6 月底,全国新能源汽车保有量达 603 万辆,2021年上半年新注册登记新能源汽车 110.3 万辆,与去年同期相比增加 77.4 万辆,增长234.92%。由新能源车所链接的车辆基本信息、驾驶人基本信息、驾驶行为数据、驾驶轨迹数据、充电桩数据等背后蕴含的价值日益受到关注。同时,由于此类数据的敏感性,传统的明文数据交易模式所面临的隐私数据泄
68、露问题是新能源车相关数据拥有方所无法接受的,隐私计算技术为新能源车相关数据价值安全释放提供了可行的解决方案。在各方原始数据无需出私域的前提下,可通过隐私计算技术基于多方数据共同完成联合模型训练、联合预测、联合筛选等,从而助力二手车交易、汽车金融反欺诈、新能源车保险定价、新能源车保险理赔等场景模式创新。目前,国内多家头部保险公司、新能源车企、新能源车联网应用与服务商等均在积极探索和推进相关领域的应用落地。4.4.3 数据跨境流动随着全球经济一体化进程加快和数字经济的快速发展,数据跨境流动的需求日益迫切,但与之相关的国家安全、个人数据保护等问题和挑战也日益突出,成为各国贸易、产业、经济、政治、社会
69、的核心议题。我国在对数据跨境流动坚持对外开放和对等原则的同时,于当前阶段针对数据出境进行严格监管。网络安全法提出关键信息基础设施的个人信息和重要数据应当在境内存储,确需向境外提供的,应隐 私 计 算 应 用 白 皮 书(2021)25/中 国 移 动 信 息 技 术 中 心当进行安全评估。数据安全法分别从域外适用效力、数据安全审查制度、数据出口管制、数据对等方面对维护数据的正当跨境流动秩序进行了宣示。通过隐私计算技术可使各方在各自加密状态下分散计算后再融合协作得到联合计算结果,实现“数据可用不可见”,在数据跨境流动满足安全合规要求的情形下发挥数据价值。目前,已有合资汽车厂商通过隐私计算技术探索
70、亚太和境外总部之间的用户数据跨境业务融通,如利用两侧数据联合统计优化驾驶体验模型、利用两侧数据进行横向联邦建模优化车贷反诈模型等。另外,在跨境支付结算,如何在多方参与的复杂情况下,既保护各方信息安全,又保证各参与方贸易背景的真实性、信息的可溯源性,一直是行业的痛点问题。运用隐私计算技术,可进行支付数据、物流数据等数据源的安全可信融合,有效整合贸易全链路信息并运用大数据分析技术对贸易真实性进行实时核验,同时辅助跨境贸易进行业务管理,实现在安全可信的前提下打造高效的跨境结算服务。隐 私 计 算 应 用 白 皮 书(2021)/26中 国 移 动 信 息 技 术 中 心5.通信运营商行业隐私计算实践
71、大数据、云计算和人工智能等新一代信息技术的快速发展,使得数据成为基础性战略资源和关键生产要素。为促进运营商数据要素安全有序流通、释放运营商数据要素价值、支撑数字经济社会高质量发展,中国移动一路稳扎稳打,持续深入对隐私计算技术的研究以及应用场景的探索实践。2018 年,中国移动开始接触隐私计算技术并开展相关领域的研究。在 2019 年到 2020 年间,中国移动在技术层面逐步深入开展联邦学习开源框架跟踪研究,重点涵盖联邦学习可信评测方法、框架碎片化等技术;在应用层面,开展试点实践,探索应用场景落地可行性并持续推进中国移动数据智能生态合作落地。从与国内头部互联网企业开展小范围的测试验证开始,经过多
72、个应用场景的验证检验,中国移动最终确立出一套较为完善的合作伙伴安全审核机制,为后续打造安全可靠的基于隐私计算的合作生态环境奠定了基础。通过联合各行业积极探索隐私计算应用场景,不断升级技术安全验证方法及 POC 测试标准。中国移动积极布局多方安全计算、联邦学习等新技术,规划建设梧桐大数据隐私计算系统,并在 2021 年正式发布“中国移动隐私计算平台”。针对中国移动与外部机构的合作,在电信运营商层面,为形成运营商整体数据服务能力提供异构隐私计算平台互联共通的基础;在跨行业融合层面,以“数据可用而不可见”的方式为金融、政府、电商等行业客户实现与移动数据的融合协同应用提供数据安全保障。中国移动隐私计算
73、平台的建设,为跨行业开展联合营销、联合风控、联合科研等合作提供了坚实的技术基础,是中国移动联合各行各业深入构建大数据合作生态的能力基石,也是中国移动借助技术创新,放眼未来,助力运营商数据要素的生产力释放,推动数字经济高质量发展的不懈追求。未来,中国移动将持续关注隐私计算领域并实现移动隐私计算平台产品的迭代优化,凝心聚力打造移动集团基于隐私计算的数据智能关键基础设施,促进移动集团数据安全有序对外赋能。隐 私 计 算 应 用 白 皮 书(2021)27/中 国 移 动 信 息 技 术 中 心图 13 中国移动在隐私计算上的研究历程和计划5.1 隐私计算平台建设中国移动搭建 1+X 的隐私计算平台,
74、如图 13 所示,主要涵盖资源层、数据层和核心算法层、应用层和系统管理层等功能模块组成,既保持 X 个基础算法算子小系统的安全性、开放性、扩展性、独立性;又可实现统一资源层、数据层和系统管理,为将来 1 个底座平台的互联互通标准、协议及接口实现奠定良好基础。隐私计算应用系统是基于对隐私计算底层技术的封装,结合联邦框架与 AI 算法,打造高效、安全的系统架构,与集中化大数据服务管控系统互动获取数据资产,支撑丰富的行业数据服务场景。图 14 中国移动 1+X 的隐私计算平台通过引入联邦学习、多方安全计算等技术,加速自主创新突破,为数智化转型注入强劲内生动力;规范数据流通关键标准,解决数据孤岛问题,
75、保障数据要素安全高效流通;持续迭代优化产品,提升服务品质,打造中国移动自主品牌;培育开放融合生态,实现全行业的共同繁荣进步,如图 15 所示。隐 私 计 算 应 用 白 皮 书(2021)/28中 国 移 动 信 息 技 术 中 心图 15 中国移动隐私计算发展路径5.1 金融行业隐私计算实践5.1.1 银行信贷智能风控银行信贷服务业务的核心是进行风险控制。风控管理覆盖信贷业务的贷前、贷中、贷后全流程,内容涵盖了从贷前准入、信贷申请反欺诈、信贷额度审批、贷中风险监控、贷后风险预警等。通过构建风控模型进行信贷申请的风险评估是银行信贷服务业务风险控制的有效手段,风控模型的质量和成效将会对金融信贷业
76、务的收益产生重要影响。随着数据量级颗粒度、深度的增加,银行对风控数据模型的需求、应用都在不断的扩大。由于央行和人行对金融机构数据使用的合规等方面约束不断加强,风控模型可用数据源的供给渠道在不断的收缩;同时,在信贷服务场景中,信息欺诈和数据失真情况不断加重,传统的银行风控模型因缺乏多维动态数据支撑,已经无法有效识别风险及进行风险预警。通过在通信运营商与银行之间搭建基于隐私计算的数据安全共享及联合建模平台,银行能够安全应用更多维度的运营商动静态数据,如通话行为标签、入网时长、信贷分、信用卡分等,为业务提供辅助决策支撑,并能够通过联合建模,在各方数据都不出私域的前提下,应用运营商更多底层数据字段及发
77、挥多方数据融合价值,提升银行风控模型的精准度,如图 16 所示。图 16 基于隐私计算的智能风控体系1)个人信贷智能风控个人信贷风控方面,借助隐私计算技术,融合业务欠费情况、运动偏好、理财偏好、工作稳定程度、阅读偏好等运营商数据、银行数据、企业数据等多方数据,隐 私 计 算 应 用 白 皮 书(2021)29/中 国 移 动 信 息 技 术 中 心能够在实现在保障数据安全的前提下进行数据融合,解决个贷业务场景中薅羊毛、信用黑户、多头借贷、贷中逾期、坏账、呆帐等风险环节的监测及预警。通过个人信贷智能风控,为银行、信贷、电信、保险等行业的业务活动提供强有力的个人客户风险防控保障。2)小微企业信贷智
78、能风控如图 17 所示,通过引入企业法人归属地偏差、政企业务欠费情况、号码活跃度、交往圈稳定情况、信用违约信息等运营商侧标签数据,助力银行准确识别小微企业集群背后的复杂关系链条和欺诈风险,构建安全、高效的智慧风控平台,提升银行整体风控水平,助力实现银行小微企信贷业风险识别的精准化、身份核验手段的多样化、提供融资服务的差异化,为银行进行企业信用评价和风险防范提供辅助依据。同时,在数据使用过程中通过采用隐私计算技术进行多方联合统计、联合模型训练及联合预测,保障各方原始数据不出拥有方本地;按用法、用量进行数据定向授权管理等功能保证数据不会被第三方缓存、转售或二次使用。图 17 基于隐私计算的企业风控
79、体系5.2.2 银行精准营销实践1)银行线上数字化营销据银行业协会数据显示,互联网的快速发展正在给银行业的发展带来巨大的击:在“互联网+金融”时代下,银行如何借势突围,高效精准的实现展业,是实现银行业賌持续增长的基础,也已成为银行必须要积极应对的问题。2020年的疫情,极大地推进了银行的数字化转型,线下业务和服务都可能的加速转向线上化、移动化。然而,有些银行仅仅将线下的营销方法到了线上,缺乏一套有效的整体规划和端到端实施方案。具体而言,国内银行在数字化营销上存在以下痛点:第一,筛选用户难,不够精准化。银行?然?拥大量客户静态数据,但这些数据往往相对?后,无法用于准确挖隐 私 计 算 应 用 白
80、 皮 书(2021)/30中 国 移 动 信 息 技 术 中 心掘客户需求,导致用户营销的方式主要表现为全方位的无目标,?也取得了一定的效果,但效率低下,成本高;第二,触达用户难。银行产品、渠道和营销?然迁移到线上,但限于用户动态数据的缺失,银行在何时和何种方式将营销内容及时触达用户,获取最?的用户反,依然缺少对应的手段;隐私计算技术在保障大数据交换时信息安全、保护个人数据隐私、保证合法合规的前提下,根据银行目标客户定位,融合银行自有数据和运营商数据,如运营商业务消费等级、网?偏好、用户?度信息、运营商信用评价等,帮助银行构建更加全面的客户画像,快速准确的筛选目标客群,减少无效的营销投放,提高
81、营销精准度,节约大量成本。如图18 所示。图 18 基于隐私计算的广告推荐系统通过运营商的用户触达和数据网关等核心能力,可以根据运营商用户历史活跃数据的支持以及个性化触发能力,智能决策最合适的用户触达时机和方式,解决用户触达难的问题,如图 19 所示。图 19 基于用户画像筛选广告推荐客户通过联合筛选、联合建模、联合预测等实现运营商和银行平台 B 端、C 端数据“虚拟打通”,从寻客、触达、获客到留存的全链路优化。在安全融合运营商数据价值后,优化银行的广告投放ROI,提升客户留存率,轻松实现精准营销,如图 20 所示。隐 私 计 算 应 用 白 皮 书(2021)31/中 国 移 动 信 息 技
82、 术 中 心图 20 基于隐私计算的精准推荐全流程2)信用卡流失用户挽留当前信用卡市场竞争激烈,客户流失严重。研究表明,客户流失率减少 5%,能给银行带来 30%-85%的利润增长,发展一个新客户的成本是挽留一个老客户成本的5-7 倍,而挽留客户成功率是发展新客户成功率的 16 倍。因此,银行在发展新客户的同时,必须着手对存量客户流失进行管理。即将流失的用户通常在银行的行为信息急剧减少,仅使用银行数据制定的专家规则或模型难以准确判断即将流失客户是否具备挽回的价值。针对信用卡用户流失问题,可以使用银行内部数据和运营商数据检测该账户用户是否有流失风险,并且根据用户的行为信息判断用户价值,对流失可能
83、性较大的高价值用户采取一定的挽留措施。银行侧数据能够反映客户的活跃度发展趋势,而运营商业务消费等级、超前消费意愿、理财意愿、消费活跃程度等数据能够反映客户近期是否仍有信用卡使用意愿。图 21 基于隐私计算的精准推荐全流程如图 21 所示,采用隐私计算的方式安全打通银行和通信运营商的数据,从而对客户当前情况进行更加精准的分析。使用双方的相关数据进行联合建模,预测用户是否存在流失的风险,并对用户进行打分排序,精准定位出高价值关键客户群体,帮助客户经理制定针对性的挽回及营销策略,预防高价值客户的流失,降低银行的损失,节约银行开发客户所花费成本。5.2.3 保险智能风控实践隐 私 计 算 应 用 白
84、皮 书(2021)/32中 国 移 动 信 息 技 术 中 心车险保费收入占中国财险份额比例约 50%-60%,是中国财险绝对主力构成。作为金融服务产品,其面临着高赔付、高频率、趋于饱和的业务特性,其核心为出险率和理赔成本的博弈。而目前在商业车险改革进一步深化的行业背景下,进一步加强车险风险管理,运用前沿数据融合技术手段,通过数字化智能方式,提高保险公司车险风控管理的综合能力,将是目前车险风险管理发展的大趋势。通过运用前沿技术手段,依托大数据、AI 机器学习、知识图谱等技术,保险公司可以围绕运营商数据、车管局数据及保险自有数据等多方数据形成更加全局的数据智能,弥补保险公司自有数据不足问题。但传
85、统的通过汇集明文数据进行数据分析和价值挖掘的方式,随着用户隐私保护和数据安全的要求和限制越来越严格,面临着诸多问题。为化解数据融合和数据隐私安全的矛盾,提升车险风险管理效率,中国移动、保险公司和车辆管理部门多方合作,采用多方隐私计算、联邦学习技术,针对车险高赔付场景人群、人伤赔付高频场景人群进行风险预警评估。针对保险业存量车险用户风控需求,梳理三大项业务场景,分别为网约车车主识别场景、出险高风险行为人群识别场景、车险用户画像服务,中国移动具备海量连续性数据、多元化标签数据、丰富大数据处理经验,可助力保险业通过前置风险管控手段,降低高频赔付业务占比。综合使用多方安全计算、联邦学习等多种隐私计算技
86、术。通过隐私计算平台实现对业务场景执行任务的总体调度及加密后数据的逻辑运算,各业务参与方通过本地部署的明文计算引擎及数据加解密模块接入 MPC 计算平台,实现本地明文数据不出域,仅输出密文计算因子参与业务逻辑运算,如图 25 所示。图 25 基于隐私计算的保险智慧出险计算框架本系统提供多方安全计算及联邦学习等一系列隐私计算技术,在保险风险评估系统中安全融合运营商及车管局的相关数据维度,在传统车主贷风险评估方面,运用保险公司已有的用户历史投保、出险记录等数据,同时结合运营商自驾游偏好情况、夜间出行偏好、出行移动范围等级、区域速度等数据,结合车管局相关个人违章信息、高风险道路位置区域信息、出险检测
87、站等数据,进行联合建模,实现对车主类型识别、出现概率评估等业务场景,如图 26 所示。隐 私 计 算 应 用 白 皮 书(2021)33/中 国 移 动 信 息 技 术 中 心图 26 基于隐私计算的保险智慧出险业务框架本项目的实施将帮助保险公司在已趋于饱和的车险风控业务中实现多维度数据联合建模,既保障了各方数据安全,又增强了建模所用数据维度,丰富其对投保用户的价值、风险、潜力等多维度评分矩阵,使保险公司能够在充分了解投保用户的出险概率的前提下,实现保险行业的业賌及品质提升。5.2.4 证券沉默用户激活证券账户沉默用户是指交易活跃度较低且手续费低于一定阈值的客户,这些客户?然为券商注册用户,但
88、并不能为券商带来真实收益。随着股票投资市场的繁荣发展,券商整体客户数量逐年上升,沉默用户的数量也不断累加。部分沉默用户仍具有投资意愿,挖掘这部分客户的潜在价值是券商客户运营领域需要解决的关键问题之一。针对手续费低于一定阈值的证券账户,使用券商内部数据和运营商数据检测该账户用户是否仍有理财投资意向。券商内部数据包含用户的资产、收入及交易记录,可以反映用户的交易趋势和客户价值。运营商数据包含用户投资爱好者、财经关注等级、消费活跃度等数据,可以反映用户的投资意愿。双方数据交叉分析即可得出该用户是否有激活为活跃客户的潜力和价值。图 27 基于隐私计算的券商沉默用户激活业务框架如图 27 所示,采用联邦
89、学习的方法,使用通信运营商的数据补充券商本地数据的不足,从而对客户进行更精准的分析。使用双方的相关数据进行联合建模,检测各沉默用户个体是否仍存在理财投资的意向,并针对客户价值进行打分排序,精准隐 私 计 算 应 用 白 皮 书(2021)/34中 国 移 动 信 息 技 术 中 心区分用户圈层,定位出营销投入产出比最高的沉默用户群体,以支撑券商客户运营团队进行触达。5.3 智慧政务治理实践5.3.1 电信反欺诈实践电信诈骗是“以非法占有为目的,利用电话、短信、聊天工具等手段,与被害人进行远程接触,通过虚构事实、隐瞒真相或者其他欺骗性手段,骗取他人财物数额较大的犯罪行为”。随着现代通信和移动支付
90、技术的迅猛发展,不法分子欺诈手法不断升级,单次欺诈行为贯穿第三方聊天工具、运营商、银行等多个行业及领域。电信诈骗对象不再是对社会资讯相对缺乏的中老年人,而是高度依赖互联网的年轻人。针对电信反欺诈识别的联邦模型,将运营商的用户静默等级、交际圈稳定程度、运营商业务量变化情况等数据、公安的诈骗号码库进行联合建模,实现电信欺诈联合预测。同时,结合已有的欺诈识别策略库,输出电信诈骗的名单。通过此名单,可以电话短信通知受害人,以降低财产损失,如图 22 所示。图 22 基于隐私计算的电信反欺诈系统在该场景中,同时也可结合区块链技术,为如何确定多参与方的贡献,如何进行事后的数据安全审计,提供有效的激励机制与
91、安全审计方案。中国移动采用自有的 CMBaaS(China Mobile Blockchain as a Service)区块链平台,打造“区块链+联邦学习”的多方数据共享模型训练引擎,将 AI 模型训练、推理过程和结果上链,结合联盟链去中心化、开放、防篡改的特性,保证多方联合建模和预测过程中原始数据不出域,仅通过交互加密的计算因子,且整个训练和预测过程可溯源、可监控、可审计、可信赖。运营商反欺诈识别的联邦模型梯度上链流程,主要是:联邦参与方进行数据特征提取和本地模型训练,模型梯度参数通过区块链上链服务进行数据上链,经过 CMBaaS 的智能合约判断,并通过区块链共识算法后,生成新的区块,如图
92、 23 所示。隐 私 计 算 应 用 白 皮 书(2021)35/中 国 移 动 信 息 技 术 中 心图 23 基于隐私计算的反欺诈模型梯度上链训练流程基于区块链的联邦学习,所有的交互都在同态加密和哈希编码技术上实现,移动和公安方并没有数据的直接传输,仅交互加密的模型中间参数,且交互的动作上传至区块链,确保了数据融通的安全性和审计性,如图 24 所示。图 24 基于隐私计算的反欺诈算法框架5.3.2 智慧人口流动分析伴随着当前城市化进程的不断推进,城市规模扩大迅速,城市内人口的数量增长迅猛,各级城市政府单位面临着巨大的管理压力,亟需推动城市人口治理的创新改革。党的十九届四中全会首次将数据增列
93、为生产要素,中共中央、国务院印发的关于构建更加完善的要素市场化配置体制机制的意见将数据列为五大核心要素之一。充分发挥数据基础性资源和战略性资源的作用,探索以数据为关键要素的新增长方式,对政策指导和经济发展具有重要意义。以联邦学习为技术核心,打造中国移动和人社厅的跨域安全联合建模能力,在满足用户隐私保护、数据安全和政府法规的要求下,基于运营商用户的业务使用数据、位置数据和山东省人社厅的标签数据,建立大学生、农民工、企业劳动力等群体态势分析场景,为人社厅人口治理和政策优化提供有力支持,如图 30 所示。隐 私 计 算 应 用 白 皮 书(2021)/36中 国 移 动 信 息 技 术 中 心图 3
94、0 人社厅+运营商隐私计算建模流程方案在保障数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方、多节点之间开展高效率计算。在此体系下,构建人口流动监测综合解决方案,通过 Web 端以及大屏端,展示人口监测应用成果,将通过人工智能手段分析、数据挖掘出的大学生、农民工等群体流动数据,以图表等可视化形式直观展现并发布。可从宏观和微观多角度了解全省流动情况,对政策优化起到一定的指导决策作用,如图 31、32 所示。图 31 基于隐私计算的智慧人社全流程图 32 基于隐私计算的智慧人社分析系统5.3.3 公共安全态势感知基于运营商公安联合实验室,隐私计算平台为公安系统提供
95、模型上传、运行、状态查询和结果集查询四个接口。在保障公安隐私数据没有泄漏风险的前提下,利用安全计算技术实现对目标群体聚集地的统计分析。通过目标群体样本、交往圈、位置特征等信息,完成区域风险评估模型计算,利用地图上颜色深浅表示事件发生隐 私 计 算 应 用 白 皮 书(2021)37/中 国 移 动 信 息 技 术 中 心概率高低,使公安部门更清晰的了解整体情况,达到预防群体性事件发生和管控的目的。该场景预警范围全面覆盖某市,必要时可扩展至全省范围预警。为了保护数据隐私、满足合法合规的要求,中国移动运用联邦学习方法解决数据孤岛问题。联邦学习过程分为自治和联合两部分,如图 33 所示。图 33 基
96、于隐私计算的公共安全态势感知计算框架在公共安全态势感知场景中,基于安全求交技术,在公安、运营商数据分别不出域的情况下安全融合双侧数据,精准获取地图区域态势感知信息。公安侧以私有云这种轻量级方式参与双方交互运算,最终以 API 接口或图层方式进行结果调用,在底层运用隐私计算新技术的同时保留公安侧原有用户习惯,有效助力社会稳定维护工作,如图 34 所示。图 34 基于隐私计算的公共安全态势感知业务场景5.4 医疗精准推荐实践健康导航服务平台能够提供预约挂号、排队叫号、报告查询、体检预约、在线药房等服务。平台运营方一直在探索互联网运营方式,但传统的推荐营销手段因受用户数据量限制,营销效果欠?。运营商
97、省分公司拥有海量用户的人生阶段情况、工作时长、夜间活跃程度等维度数据,而传统方式平台运营方无法有效使用运营商的数据价值,新增场景的存量用户客群推荐、新用户的适用场景推荐等推荐模型预测效果不?。因此,亟需通过技术手段在保障双方数据隐私的情况下,进行联合模型构建,提升平台推荐模型的准确性。通过引入联邦学习技术,在多方本地化部署的基础上,服务端、客户端及协调隐 私 计 算 应 用 白 皮 书(2021)/38中 国 移 动 信 息 技 术 中 心方通过网络互联进行联合建模,实现数据不出库、不共享数据,有效解决数据孤岛问题。联合模型充分利用运营商省分公司大数据优势和健康导航平台行业经验,建设健康导航平
98、台APP用户弹窗问诊功能推荐,以提高App推荐的精准性,如图28所示。图 28 基于隐私计算的医疗精准推荐全流程实现逻辑,健康导航平台根据业务需求发起训练,然后经协调方和运营商做数据对齐,完成后开始与运营商交换参数并训练模型。具体步骤如下,如图29所示:图 29 医疗精准推荐训练流程运营商与省卫健委共同打造省级统一医疗健康服务平台,能够实现问诊、体检等场景的精准推荐。同时打造“场景?启动模块”、“用户?启动模块”解决对新增场景的用户群推荐,和新增用户的业务场景推荐等问题,有效提升就医用户满意度。5.5 其他行业隐私计算实践5.5.1 汽车精准营销实践自 2018 年以来,中国汽车销量连续 3
99、年遭遇下跌,行至 2021 年,汽车运营模式已经“不得不变”;传统模式曾大获成功,但到了存量时代,传统获客线索发生退化、单车获客成本上涨、运营生态悄然改变,企业应该寻找到数字化营销转型的最优路径,避免有限的财力与精力被浪费。随着汽车行业的数字化、智能化发展,高质量的汽车用户使用行为数据成为汽车行业可持续发展的核心要素。但是由于汽车隐 私 计 算 应 用 白 皮 书(2021)39/中 国 移 动 信 息 技 术 中 心行业存在数据孤岛、脱敏后的数据隐私安全性和数据监管等问题,汽车行业数据在多方机构之间无法完成数据互通共享,主要表现在潜在客群群体无体系、对客户业务诉求不明确、客户体验、客户失联无
100、追踪、获客效果转化无大增长。为此,中国移动依托在物联网、云计算、人工智能、大数据等方面的技术积累,打造汽车产业开放性的连接生态,联合多方融通数据建立共享的纵向联邦计算平台,最大化的保障数据安全,最终实现多方安全计算技术与汽车营销场景的深度融合,为汽车行业提供专业的大数据技术服务支持。通过?车意向预判模型,了解客户意向强度、需求量以及推荐价位预估等,对已有线索进行快速筛选,圈定高质量种子人群。综合多维度用户特征进行分析,联系客户消费能力、常驻城市、娱乐偏好、人生阶段等维度数据,基于多平台多渠道多数据进行联合建模、联合计算,使得有效训练数据显著增加,利用持续迭代的深度学习算法模型,从海量预选人群中
101、提取高意向目标客群并提供个性化服务,如图35 所示。图 35 潜在客户精准画像运营商与车企基于隐私计算平台,原始数据在本地计算与存储,最终根据车企客户需求,选择合适触达方式进行目标客户触达,如图 36 所示。图 36 基于隐私计算的汽车智能营销计算框架运用隐私计算打破数据孤岛,联合建模释放商业价值。一方面,挖掘潜在新能源、SUV、MPV 等车型潜在客户、高价值客户,为企业提供更优的获客方案。另一方面,也为车企存量用户的保有运营提供策略,帮助车企进行其客户的分层管理,助力车企产品运营与优化。隐 私 计 算 应 用 白 皮 书(2021)/40中 国 移 动 信 息 技 术 中 心6.隐私计算发展
102、趋势展望隐私计算技术正处于蓬勃发展的阶段,具有广阔的应用前景和巨大的潜在价值,但也存在着技术及商业化发展等方面的难题,需要产业共同协作解决。中国移动倡导成立数据要素化发展技术与产业联盟,希望凝聚业界应用、服务、技术、标准、认证相关企业或实体的力量,共同打造隐私计算应用生态,促进隐私计算技术及产业的快速发展。联盟鼓励各方积极参与,共同解决技术发展难题、建立互联互通标准、探索数据合作的新模式以及公平可信的激励机制。6.1 政策展望1)加快制定和完善国家产业发展政策和法律法规隐私计算技术是保障数据有序合规流通协作的基础技术,需要通过制定和完善国家产业发展政策,引导和促进行业间形成合作共识,有效激发行
103、业活力并推动技术成熟和广泛应用;同时需要积极制定相关的法律法规,明确数据权属,按照不同角色定位来界定各个参与方的责权范围,规范数据合作行为,为数据跨行业合作和流通以及联邦学习技术发展提供制度和政策保障。2)加强隐私计算的数据安全保护与依法合规为降低隐私计算技术在应用过程中出现的数据泄露风险和避免违规使用个人信息行为的发生,在开展隐私计算应用过程中要贯彻落实国家数据安全法、个人信息保护法等相关法律法规要求,不断完善内部数据的全生命周期管理,建立健全产品上线前的安全评估机制,以技术加管理的方式,从设计方案、模型构建、密码算法、责任约定、安全协议等多角度、多方面开展安全评估,加强数据的安全性保护。同
104、时,要严格落实用户知的知情同意原则,对用户数据处理前以明示的方式向用户告知个人信息处理的目的、方式和方法,在经用户同意后方可开展用户信息的建模分析,确保用户信息使用的合规性。3)建立评测认证机制和相应机构安全和隐私保护是隐私计算技术可用的基础,通过引入同态加密、秘密分享等安全技术,制定节点之间的模型参数交互协议,在节点间建立了相对比较完善的建模流程。但目前业界缺乏可验证、可测量的评测体系和方法来评估协议的一致性,确保加密的模型参数不包含敏感信息且没有原始数据任何形式的泄露。需要建立一套针对隐私计算技术及相关产品的评测指标体系,并在此基础上建立评测认证机制并由相应的机构承担评测和认证工作。隐 私
105、 计 算 应 用 白 皮 书(2021)41/中 国 移 动 信 息 技 术 中 心4)构建分级分类的隐私计算产品及平台的认证体系目前业界联邦学习的实现框架、核心算法和交互协议等方面存在很大差异,为联邦学习系统安全带来巨大挑战。我们可以通过在国内外的标准化组织中积极推进、制定和建立联邦学习安全相关的标准体系,详细定义联邦学习的各项安全指标及其具体技术要求,同时,结合实际应用场景,借鉴信息系统安全等级保护体系、要求及定级指南,制定联邦学习系统的分级分类体系要求,详细定义每个级别具体的量化指标,并据此建立联邦学习系统的安全能力分级标准。在制定联邦学习安全相关标准的基础上,进一步制定各项安全指标的评
106、估、评测方法,据此建立起针对联邦学习系统的安全评估方法和评测认证机制,推动专业化机构承担评测认证职能,为业界的联邦学习系统和产品进行评测与认证;并以评测报告与认证标识作为联邦学习系统和产品安全可信的重要参考依据。6.2 技术展望隐私计算技术已经在数据安全交互和协同中发挥了积极的作用,得到了快速发展和越来越多的应用。面向未来更加广泛深入的规模应用和构建良好产业生态,隐私计算技术还需要在提升效率、降低开销、开展安全保障的评估和评测、扩展适配更多算法和协议、实现不同框架的兼容和互联互通等方面进行深入研究,促进隐私计算技术的进一步成熟。1)促进不同技术框架和产品之间互联互通针对目前业界隐私计算技术框架
107、众多,彼此无法互通协作的突出问题,迫切需要解决不同技术框架和产品之间的互联互通问题。一个机构无需部署多个系统,而是通过一套服务,与外部各种机构进行大数据协同的连接合作。对于企业或实体,研究跨行业跨平台的转换和对接技术,实现最大程度的互联互通,让各方基于数据实现更好的合作。2)推进国际国内隐私计算技术的标准化当前,国内外众多标准化组织已开始制定或发布以框架和功能为主的隐私计算相关技术标准。相关技术标准已经开始从基础的功能标准向产品性能、安全性等方向拓展,加速构建更加完善的隐私计算技术标准体系。中国移动已牵头或参与在TMF、IEEE 以及国内的信安标委、CCSA 等标准化组织设立 13 个标准,重
108、点围绕隐私计算在技术框架的互联互通、安全评估与测试、数据价值评估和激励机制以及未来通信网络中的应用场景等方面开展标准制定工作。隐 私 计 算 应 用 白 皮 书(2021)/42中 国 移 动 信 息 技 术 中 心6.3 应用展望1)探索更多领域的特色应用隐私计算应该在行业内与行业间进一步丰富和扩展应用案例。隐私计算在行业内,可以打破跨企业跨部门的数据协同壁垒,融合更多的样本数据或特征数据建立模型,提升模型效果。隐私计算在不同行业数据协同的产业场景中的实际落地,给技术研究和演进发展提供了切实有效的需求驱动和方向指引,产业界的不同行业和企业需要积极挖掘业务场景、研发基于隐私计算的跨行业跨领域的
109、数据应用,不断丰富应用案例。2)与相关领域新技术深度融合发展随着隐私计算技术得到越来越多的关注,其与当前各领域新技术融合发展的趋势将更加明显。比如:通过将隐私计算技术与区块链技术进行融合,可以有效解决数据合作过程的可信和可追溯,进一步增强了整个技术方案的安全性;通过将边缘计算技术与隐私计算技术融合,可以将具备安全和隐私保护特性的能力部署在边缘计算节点上,增强了边缘侧的业务扩展能力和安全保障能力;通过将隐私计算技术引入 5G+网络甚至未来 6G 网络的业务场景中,将进一步拓展未来 DICT 领域的业务发展空间。3)建立数据价值评估和激励机制,探索可行的商业模式由于各参与方数据分布的不均衡,数据价
110、值与数据贡献也不相同。如何保障各方的利益,实现参与方数据变现,是构建以隐私计算为基础的数据流通生态以及实现商业化运作的关键。需要积极研究数据拥有方对联合模型的参与度和贡献度的评估方法,建立公平合作、共享共赢的激励机制,将有利于吸引更多数据拥有方参与隐私计算,从而建立起健康可持续发展的跨行业数据流通生态;同时积极探索和验证“参与贡献数据价值,平等分享数据获益”的良性可持续发展商业模式,从而催生跨界业务创新,构建基于大数据的产业合作生态,共同促进技术成熟和产业发展。中国移动愿与合作伙伴一起在隐私计算技术和应用领域持续探索和创新,拓展更多的业务场景,提供更丰富的应用解决方案,解决应用落地中的技术、合
111、作及商业等层面的问题,共同推进数据要素价值的充分发挥和市场化发展,构建和完善产业生态,为国家数字化转型升级和数智化创新发展保驾护航。隐 私 计 算 应 用 白 皮 书(2021)43/中 国 移 动 信 息 技 术 中 心参考文献1.李凤华,李晖,贾焰等,隐私计算研究范畴及发展趋势。通信学报第 37 卷第 4 期,2016年4月2.彭南博,王虎等,联邦学习技术及实战。中国工信出版集团电子工业出版社,2021年3月3.Beimel A,Secret-Sharing Schemes:A Survey.International Conferenceon Coding and Cryptology
112、2011:11-464.ShamirA,HowtoShareaSecret,Commun.ACM,22(11):612-613,November 19795.Rivest R L,Adleman L,Dertouzos M L,On data banks and privacyhomomorphisms.Foundations of Secure Computation,1978:169-1796.Michael O.Rabin,How to Exchange Secrets with Oblivious Transfer,Technical Report,(Harvard Universit
113、y),20057.Andrew C.Yao,Protocols for Secure Computations.23rd AnnualSymposium on Foundations of Computer Science(sfcs 1982)8.杨强,刘杨等,联邦学习。中国工信出版集团电子工业出版社,2020年4月9.Dwork C,McSherry F,Nissim K,and Smith A,Calibrating Noise toSensitivity in Private Data Analysis.Third Theory of Cryptography Conference(TC
114、C 2006)March 200610.杨强,黄安埠等,联邦学习实战。中国工信出版集团电子工业出版社,2021年5月11.国家工业信息安全发展研究中心中国隐私计算产业发展报告(20202021)12.隐私计算联盟、中国信通院云大所隐私计算白皮书(2021年)13.中国移动通信有限公司研究院,联邦学习技术发展与应用白皮书,2021年5月14.来源于https:/ 私 计 算 应 用 白 皮 书(2021)/44中 国 移 动 信 息 技 术 中 心17.来源于https:/ X,Zheng H,Dou Z,et al.A novel privacy-preserving federatedgenome-wide association study framework and its application in identifyingpotential risk variants in ankylosing spondylitisJ.Briefings in Bioinformatics,2020,22(Suppl 3).