《北京金融科技产业联盟:2023FATE隐私计算开源框架金融行业技术应用报告(64页).pdf》由会员分享,可在线阅读,更多相关《北京金融科技产业联盟:2023FATE隐私计算开源框架金融行业技术应用报告(64页).pdf(64页珍藏版)》请在三个皮匠报告文库上搜索。
1、 FATE 隐私计算开源框架金融行业技术应用报告 1 FATE 隐私计算开源框架金融行业技术应用报告 The Application and Development Report of Open Source Privacy Computing Framework(FATE)in Financial Industry 北京金融科技产业联盟 2023 年 1 月 FATE 隐私计算开源框架金融行业技术应用报告 2 前 言 本报告由北京金融科技产业联盟开源专业委员会组织编写并拥有相关版权。凡转载、引用、摘录或以其他方式利用本报告观点、内容、图表的,都应注明“引用来源:北京金融科技产业联盟”。FAT
2、E 隐私计算开源框架金融行业技术应用报告 3 编制委员会 主任:潘润红 编委会成员(按姓氏笔画排序):杨强 涂晓军 聂丽琴 鲁金彪 编写组成员:夏知渊 丁文定 苗天麒 范涛 葛娴 高鹏飞 陈东熠 周雍恺 张远健 丁锐 徐梓丞 周柚池 李艳 黄安埠 梁晔华 胡玉杰 刘微 王鹏 霍昱光 樊昕晔 李钰 申超波 张国庆 刘文懋 徐安滢 张宏 高翔 胡达川 李寻 耿航 程勇 李克鹏 杨扬 统稿:丁文定 参 编 单 位:北京金融科技产业联盟、中国工商银行股份有限公司、深圳致星科技有限公司、深圳前海微众银行股份有限公司、中国银联股份有限公司、中国银行股份有限公司、建信金融科技有限责任公司、光大科技有限公司、
3、广发银行股份有限公司、北京神州绿盟科技有限公司、中国农业银行股份有限公司、腾讯云计算(北京)有限责任公司 另有以下单位也为本次报告编制分析提供了行业案例参考:中国邮政储蓄银行股份有限公司、交通银行股份有限公司、平安银行股份有限公司、上海浦东发展银行股份有限公司、兴业银行股份有限公司、华夏银行股份有限公司、泰康保险集团股份有限公司、星环信息科技(上海)股份有限公司、同盾科技有限公司、上海同态信息科技有限责任公司、神谱科技(上海)有限公司、神州融安数字科技(北京)有限公司 感谢以上机构及人员对本报告编写的大力支持!FATE 隐私计算开源框架金融行业技术应用报告 4 目目 录录 概述.5 一、研究背
4、景.7(一)数据需求推动发展.8(二)开源成为重要途径.9(三)政策环境提供支持.10 二、主流开源隐私计算框架介绍.12(一)特点概况.12(二)应用情况.16 三、金融业隐私计算开源生态建设现状.21(一)发展历程.21(二)路径及形式.22(三)痛点和需求.25(四)隐私计算开源生态位全景图.27 四、FATE 开源框架技术分析.30(一)框架特点.30(二)一站式解决方案.32(三)灵活适配.36(四)云原生.36 五、未来展望.38(一)技术发展展望.38(二)生态建设展望.40 参考文献.43 附录:FATE 开源框架的典型应用案例.44(一)应用概况.44(二)应用场景.44 F
5、ATE 隐私计算开源框架金融行业技术应用报告 5 概 述 近年来,我国 数据安全法 网络数据安全管理条例 个人信息保护法陆续出台,数据安全已经迈入了重要发展阶段。在充分保护数据和隐私安全的前提下,隐私计算技术实现不泄露数据本身的情况下,对数据进行分析与计算,满足数据“可用不可见”的要求,促进数据价值的转化和释放。2022 年,隐私计算技术体系不断完善,行业标准日趋统一,应用场景逐渐丰富,实践案例不断增加,隐私计算技术蓬勃发展。金融行业是隐私计算技术应用落地的最重要领域,金融机构在数字化转型升级中有着强烈的数据流通需求,迫切需要打破数据流通的壁垒,实现数据融合运用。金融机构通过开源共建方式能够解
6、决互信协作难的问题,但如何在保障用户隐私安全同时,释放数据要素价值,成为金融机构必须面对的挑战。回顾隐私计算技术的发展历程,开源模式已经成为隐私计算技术创新及产业协同发展的重要驱动力,极大促进了隐私计算技术的进步与融合。开发者们通过大量的落地案例及场景应用实践,对开源隐私计算框架进行持续的技术验证与创新,不断推进开源隐私计算技术快速发展与完善。同时,我国形成了以 FATE 为代表的隐私计算开源社区,各大院校、科技企业、科研机构、协会团体、金融机构等积极参与其中,共建隐私计算开源生态,为隐私计算产学研用的深度融合起到了良好的示范及推动作用。从长期来看,开源是促进隐私计算技术互联互通的重要模式,也
7、是隐私计算技术规模化发展的必要途径。在政策层面在政策层面,国家和金融行业积极鼓励开源创新;在技术层面在技术层面,开源有效加速构建隐私计算生态,降低技术开发门槛,促进行业标准统一及互联互通,并推动隐私计算技术朝着更安全、更可信、更普惠的方向稳步发 FATE 隐私计算开源框架金融行业技术应用报告 6 展;在行业应用层面在行业应用层面,开源隐私计算技术已经在金融、政务、医疗等领域中具备丰富的成功案例,并通过大量的实践案例持续反哺技术的不断成熟。本报告对主流隐私计算开源框架和金融业隐私计算开源生态建设现状进行研究,结合金融业对隐私计算技术的实际场景需求,以业界影响力较大的 FATE 隐私计算开源框架为
8、研究对象,通过丰富的实践案例,探索金融业对隐私计算开源框架的通用技术能力要求,为隐私计算开源框架更好地适配金融业数据流通需求提供指导和建议,从而实现金融业隐私计算技术需求与开源技术框架供给的双向循环和良性互动。FATE 隐私计算开源框架金融行业技术应用报告 7 一、研究背景 随着大数据时代的到来,数据的价值得到越来越深的发掘,数据的应用方式更加多样化,数据正和土地、劳动力、资本等生产要素一样,成为促进经济增长和社会发展的基本要素。在数据要素的经济价值和战略价值愈发重要的同时,数据安全、隐私保护引发的“数据孤岛”问题也愈发凸显。隐私计算技术因具有“数据可用不可见”的特性,能够充分发挥数据要素价值
9、,促进数据要素安全流通。开源能够降低隐私计算技术的应用门槛、增强软件安全性、打破“计算孤岛”,是隐私计算技术规模化的重要途径,对数据要素市场的建设有着积极推进作用。金融行业是最早应用信息技术的产业之一,从上世纪 80 年代的 ATM 机到近年的开放银行,金融行业已经产生、收集、积累了大量的数据1。同时,金融行业也是可以最大化利用数据价值的行业之一,从个人征信到公司估值,从价值投资到技术分析,金融行业想提供高效服务、赋能实体经济,离不开对数据的合理使用。随着金融行业对多维度数据需求的增加,和数据安全、隐私保护重要性的提升,全行业亟需安全、易用、普适的数据要素流通解决方案。在金融数据要素流通需求的
10、推动下,金融机构开始逐渐参与开源隐私计算框架的开发与共建,促进机构数字化转型升级工作。FATE 隐私计算开源框架金融行业技术应用报告 8 (一)(一)数据需求推动发展数据需求推动发展 数据作为战略性和基础性资源,是数字经济体系中技术创新、需求挖掘、效率提升的重要动能2。数据虽然在不断地创造价值,但其存在的隐私泄漏、安全合规等潜在问题,引起了社会各界的广泛关注。金融行业作为数据密集型行业,天然具备数据流通的大规模应用场景和更严格的管理要求,因此,数据的安全合规流通需求推动了隐私计算技术在金融行业的发展。1金融行业隐私计算的必要性金融行业隐私计算的必要性 在新的数据监管要求下,金融机构认真做好用户
11、隐私保护和数据安全,但也出现了“不敢、不愿、不得”共享数据和数据流通不畅的情况,金融机构无法通过便捷引入互联网公司的行为数据,丰富自身数据项及数据维度,解决数据存在片面、单一等问题,提升金融服务的质量和效益。金融机构难以获取外部数据,导致智能化程度受限,如何保障用户隐私,同时保障数据权属问题成为挑战。而隐私计算技术可以实现金融机构内部、同业之间、甚至跨行业的数据合作与共享,满足金融机构迫切打破数据流通壁垒的需求,实现金融数据融合运用的解决方案。2隐私计算在金融行业的应用场景隐私计算在金融行业的应用场景 金融行业存在大量的多维度、高价值的数据,这一类数据通常具备极强的金融属性,但缺少行为数据、场
12、景数据等。而大型互联网公司、运营商等机构通常有大量的行为数据与场景数据,金融机构可通过联邦学习、多方安全计算、可信执行环境、同态加密等隐私计算技术,在保证原始数据不泄露的情况下,与之进行联合建模,提升金融业务效果。例如,在联合营销方面在联合营销方面,联合各方数据构建营销模型,进一步丰富用户画像,制订更加精准的营销策略,实现多赢的联合营销效果3。在联合风控方面在联合风控方面,一方面通过融合多个金融机构数据,可以解决单一机构数据量有限的 FATE 隐私计算开源框架金融行业技术应用报告 9 问题,形成全局风控模型,提升模型精准度;另一方面,综合利用金融机构同其他行业数据,可以在各方原始特征不出域的前
13、提下建立风控模型,形成对业务的多维度认识,提升风控质量。(二)(二)开源成为重要途径开源成为重要途径 随着数据要素流通体量的增长,隐私计算技术面临规模化、产业化的重要挑战。开源隐私计算技术通过开放、连接、协作、共创等方式,有效重塑隐私计算生态,加速行业标准统一,促进行业互联互通,并推动隐私计算技术朝着更安全、更可信、更普惠的方向稳步发展。1.开源促进数据流通融合进程开源促进数据流通融合进程 近年来,闭源隐私计算厂商技术百花齐放,但因彼此技术理念、技术框架、技术路径及数据连接生态不同,导致在解决“数据孤岛”问题之后,出现了不同厂商产品无法协作的问题。而开源隐私计算社区则通过打造通用开放的隐私计算
14、技术框架,统一计算、存储、通信、流程编排、任务调度、运维部署等标准,实现不同计算节点之间数据、算法、模型、算力等层面的互动和协同,让隐私计算开发者向一个共同的标准靠拢,以达到系统互联互通的效果,成为加速隐私计算行业发展的重要路径。同时,社区通过统一运营的方式整合多方资源,重塑隐私计算数据参与方之间及数据参与方与技术提供方之间的生态关系,使生态中的数据节点彼此资源共享、优势互补,最大化释放数据要素价值。2开源实现隐私开源实现隐私计算技术安全可证明计算技术安全可证明 当前,我国隐私计算技术面临着安全证明难、模型监管难等问题。一是近年来数据流通过程中存在大量的用户隐私及用户原始数据泄漏案例,加剧了用
15、户对企业数据使用的不信任感;但闭源隐私计算技术及第三方机构安全认证难以彻底解决安全可证明、模型可监管等问题。二是我国现有监管法律制度,对数据流 FATE 隐私计算开源框架金融行业技术应用报告 10 通的监管全过程,尚未提出明确的参考指引和实操指南,数据流通合规性难以把控。开源隐私计算框架由于其开放共享、公开透明、共创迭代等特性,可以有效解决隐私计算技术提供方本身潜在的作恶风险,以及技术平台与数据源合谋作恶等问题,从而满足安全可证明,模型可监管等要求。并且,算法的设计离不开新的场景应用,开源可以让广大用户在不同应用场景下对系统进行监督和贡献,使得安全性不断在场景训练中持续提升。3开源助力隐私计算
16、技术普惠开源助力隐私计算技术普惠 隐私计算技术复杂度较高,研发和部署存在一定门槛。开源社区具备天然的知识共享土壤与多方协同机制,能够加速隐私计算技术持续升级和商业化发展,高效提升产品版本迭代效率,进而不断增强隐私计算的场景适配性,从而降低隐私计算行业进入门槛和企业隐私计算资源重复建设成本,助力技术普及加速。近年来,国内外许多机构积极拥抱开源,并投入大量资源到开源项目的研发与贡献中。特别是以联邦学习为核心的开源项目,在隐私计算产业化落地进程中贡献了巨大力量。目前 55%的国内隐私计算产品是基于或参考开源项目开发的,其中,开源项目以FATE 为主1,很多联邦学习类产品或多或少吸收和借鉴了 FATE
17、 供给的营养。(三)(三)政策环境提供支持政策环境提供支持 2021 年 3 月,中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要(以下简称目标)提出“支持数字技术开源社区等创新联合体发展”,开源被首次写入国家战略规划。目标还将数据和技术与土地、劳动力、资本一并纳入要素市场化改革范畴。同年,央行等五部门发布关 1 数据来源:中国信通院隐私计算白皮书(2021)FATE 隐私计算开源框架金融行业技术应用报告 11 于规范金融业开源技术应用与发展的意见(以下简称 意见),鼓励金融机构将开源技术应用作为提高核心技术自主可控能力的重要手段。2021 年央行印发的 金融科技发
18、展规划(2022-2025年)(以下简称发展规划)将“充分释放数据要素潜能”列为未来四年八项重点任务之一,要求“推动数据有序共享”。基于“统一大市场”和“数据要素潜能”两方面代表性政策态势,为开源隐私计算框架应用于金融行业营造了良好互促的条件和氛围。首先,统一大市场建设客观上加速了隐私计算技术应用。首先,统一大市场建设客观上加速了隐私计算技术应用。中共中央国务院于 2022 年发布的关于加快建设全国统一大市场的意见明确界定了统一大市场的要义,即“促进商品要素资源在更大范围内畅通流动为建设高标准市场体系、构建高水平社会主义市场经济体制提供坚强支撑”。各行业积极响应国家、部委层面关于数据要素流通的
19、隐私保护、分类分级等要求2,通过隐私计算技术的支撑,探索“原始数据不出域、数据可用不可见”的交易范式,实现数据使用的“可控可计量”3。同时,开源在金融机构数字化转型中发挥重要作用。同时,开源在金融机构数字化转型中发挥重要作用。在技术发展方面,发展规划提出要“积极应用多方安全计算、联邦学习、差分隐私、联盟链等技术实现数据可用不可见、数据不动价值动”。意见也明确了“鼓励金融机构将开源技术应用作为提高核心技术自主可控能力的重要手段”。充分体现了 2 2020 年国务院办公厅印发关于构建更加完善的要素市场化配置体制机制的意见,要求“探索建立统一规范的数据管理制度,提高数据质量和规范性,丰富数据产品。制
20、定数据隐私保护制度和安全审查制度。推动完善适用于大数据环境下的数据分类分级安全保护制度,加强对政务数据、企业商业秘密和个人数据的保护。”3 2022 年国务院办公厅印发要素市场化配置综合改革试点总体方案要求“探索原始数据不出域、数据可用不可见的交易范式,在保护个人隐私和确保数据安全的前提下,分级分类、分步有序推动部分领域数据流通应用。探索建立数据用途和用量控制制度,实现数据使用可控可计量”。FATE 隐私计算开源框架金融行业技术应用报告 12 金融行业对运用开源技术平台开展高质量金融场景应用建设的积极态度和必行趋势。在国家及行业层面重视开源技术应用的政策背景下,隐私计算框架的研究不仅是必要的,
21、而且通过开源的形式加快落地也是可行的。开源与隐私计算框架的有机结合,将不断适应新形势下金融行业数据流通安全可控、守正创新等内在要求,大力发展开源隐私计算框架正当时。二、主流开源隐私计算框架介绍(一)(一)特点概况特点概况 自 2017 年 OpenMined 推出 PySyft 以来,开源隐私计算框架层出不穷,不同技术路线、开发语言、系统架构的开源框架百花齐放。本报告调研了热度较高(以 GitHub 的 star 数统计)、更新较为活跃(最近版本更新及总版本数统计截止 2022 年 8 月)的 25 种业内主流开源隐私计算框架,并对各框架特点进行了分析与归纳。表 1 开源隐私计算框架概况4 开
22、源框架开源框架名称名称 开源机构开源机构 主导主导机构机构 开源时开源时间间 最近版最近版本更新本更新 总版总版本数本数 系统特点系统特点 PySyft OpenMined 国外 2017.7 2021.12 22 1.用于安全和私有深度学习的 Python库 2.基于 PyTorch,使用 UnityGameEngine安全多方计算 3.联合学习、差异隐私 TF-Encrypted DropoutLabs,OpenMined,阿里巴巴 国外/国内 2018.3 2022.3 17 1.基于 TensorFlow 的安全多方计算框架 2.在底层集成了安全多方计算、同态加密等技术,利用预先构建的
23、协议或使用TF-Encrypted 的可插拔架构构建和测试用户的协议。Asylo Google 国外 2018.5 2021.6 19 1.Asylo 是下一代机密运算框架,旨在提供一个在可信执行环境(TEEs)中执行的应用的开发框架和 SDK,以确保应用及资料的安全性。FATE 隐私计算开源框架金融行业技术应用报告 13 2.Asylo 是一个全新类型的框架,它包含用于加密敏感通信的功能和服务,有助于保护数据和应用程序。Asylo 框架的出现使得更多的开发人员能够使用TEE,并支持各种硬件从企业内部系统到云端 3.开发语言 C/C+MesaTEE/ApacheTeaclave 百度 国内 2
24、018.9 2022.4 4 1.内存安全 2.安全多方计算,区块链和云服务 3.约束所有控制流和数据流必须经过关键检查点,显著减轻了审计和访问控制的难度 4.通过利用包括 IntelSGX 在内的 TEE,安全地将云用户的数据和代码执行隔离、加密起来,即使云计算环境里的操作 系 统、虚 拟 机 管 理 器(VMM/hypervisor)、或相邻的其他虚拟机被攻破或作恶,这些数据代码的完整性和保密性都能得到保障。用户也可以通过远程地验证执行环境,确保远程执行的代码是否符合预期 5.灵活可配置的安全等级 CrypTen Facebook 国外 2019.1 2020.4 1 1.安全多方计算框架
25、,有一个通用的、机器学习优先的 API 设计 2.采用了一种命令式编程模型 FATE 微众银行 国内 2019.2 2022.4 34 1.工业级框架,统一计算,存储,通信抽象层,适配不同的计算引擎,存储引擎,通信引擎 2.提供一站式的联邦模型企业级服务解决方案。提供多插件支持联邦学习企业和科研应用 3.支持主流的分类、回归、聚类和迁移学习的联邦化算法 4.提供多种安全计算协议支撑上层应用,支持同态加密协议、秘密共享协议、不经意传输协议和 DH 密钥交换算法等 5.提供 30 多个联邦算法组件 6.累计迭代 34 个版本 TensorFlowFederated,TFF Google 国外 20
26、19.3 2022.8 36 1.可以选择 ML 模型架构 2.模型设计理念以数据为主 FATE 隐私计算开源框架金融行业技术应用报告 14 Occulum 蚂蚁集团 国内 2019.3 2022.7 41 1.提供轻量级的 LibOS 进程,这些进程共享一个 enclave 的单个地址空间,启动速度,进程间通信速度均有提高 2.支持各种类型的文件系统 3.使用 Rust 从头开始构建的,减少低级别的内存安全错误 Fedlearner 字节跳动 国内 2020.1 2021.3 4 1.代码里有大量的 JS、HTML 模块,产品化程度高 2.采用云原生部署方案。数据存放在HDFS,用 MySQ
27、L 存储系统数据,通过Kubernetes 管理任务 PaddleFL 百度 国内 2020.2 2021.12 5 1.基 于 飞 桨(PaddlePaddle)和Kubernetes 2.面向深度学习设计,提供在计算机视觉、自然语言处理、推荐算法等领域的联邦学习策略及应用场景 3.简化大规模分布式集群部署 4.二次开发接口允许各方定义私有化的数据读取器 5.提供了基础编程框架,并封装了一些公开的联邦学习数据集 FLEX 同盾科技 国内 2020.2 2020.12 1 一套标准化的联邦协议:约定了联邦过程中参与方之间的数据交换顺序,以及在交换前后采用的数据加解密方法 FedML 美 国 南
28、 加 州大学 国外 2020.7 2022.4 1 支持三种计算范例:分布式训练、移动设备训练、独立仿真 Rosetta 矩阵元 国内 2020.8 2021.7 5 1.集成了 3 方参与的安全多方计算(MPC)协 议、零 知 识 证 明 协 议Mystique 2.基于 TensorFlow 开发的隐私计算框架 IBMFederatedLearning IBM 国外 2020.8 2022.3 7 1.无需迁移即可在企业范围内收集、清理和培训具有大量数据的站点 2.适应数据格式、质量和约束方面的差异 3.在训练具有不同数据源的模型时遵守数据隐私和安全性 9NFL 京东 国内 2020.9/
29、1.支持百亿级规模样本.百 T 级容量数据的超大规模的样本匹配、联合训练 2.实现分布式异步框架、Failover 拥塞控制等机制 FATE 隐私计算开源框架金融行业技术应用报告 15 Fedlearn 京东 国内 2020.10 /自主研发的联邦学习平台,不同参与方之间交换更新参数所需的中间数值,采用增加扰动对这些数值进行保护,引入中心化数据交换的概念,采用异步计算框架 IntelOpenFL Intel 国外 2021.1 2021.4 157 1.OpenFL是用于联邦学习的python3库 2.OpenFL 是适用于数据科学家的灵活、可扩展且易于学习的工具 MindSporeFeder
30、ated 华为 国内 2021.7 2022.7/开源联邦学习框架,支持面向千万级无状态终端设备的商用化部署,可在用户数据不出本地的前提下,使能全场景智能应用。特点是:隐私安全、分布式联邦聚合、联邦效率提升、灵活易用 NVFlare NVIDIA 国外 2021.7 2022.7 13 与模型无关、开源、可扩展的 SDK,允许研究人员将现有的 ML/DL 工作流程(PyTorch、RAPIDS、Nemo、TensorFlow)快速适配到联邦学习架构上 EFLS 阿里巴巴 国内 2021.10 /弹性联邦学习解决方案,支持两个合作方在特征维度拓展样本,并进行联合训练 WeFe 天冕科技 国内 2
31、021.10 /致力于实现在非共享的情况下,充分保护各方用户数据安全,实现跨数据、跨行业的数据合作 FederatedScope 阿里巴巴 国内 2022.5 2022.7 2 支持大规模、高效率的联邦学习异步训练,能兼容不同设备运行环境,且提供丰富功能模块,大幅降低了隐私保护计算技术开发与部署难度 Primihub 原语科技 国内 2022.5 2022.8 3 1.集成密码学、机器学习技术和加密硬件等多种安全方案 2.提供一站式端到端的应用服务开发平台和可视化交互方式 3.实现十亿级规模大数据计算 SecretFlow 隐语 蚂蚁集团 国内 2022.7/通过架构设计,统一架构能够同时支持
32、MPC、TEE 和联邦学习的方案 XFL 翼 数联邦学习及XSCE翼数安全计算 翼方健数 国内 2022.7 2022.7/在系统构架上强调轻量、高效、低依赖、高性能、易扩展、易集成,让开发者实现轻量级二次开发,帮助用户在不同应用场景实现“数据使用”自由 FATE 隐私计算开源框架金融行业技术应用报告 16 (二)(二)应用应用情况情况 通过调研发现,国内企业积极主导、参与开源隐私计算框架,本次梳理的隐私计算框架开源统计表中,约 2/3 开源框架为我国科技企业贡献。同时,隐私计算开源框架总体较为活跃,上述统计的开源框架中,约一半在近一年内发布了版本更新,通过不断迭代优化产品性能,丰富和提升框架
33、算法、性能和易用性等方面能力。对于更新比较频繁,应用相对广泛的几款开源框架,本报告从其技术和应用情况进一步分析介绍。1PySyft PySyft 是开源社区 OpenMined 于 2017 年推出的用于安全和隐私深度学习的 Python 库,目前已在医疗、金融、通信等行业获得了应用。PySyft 使用联邦学习、差分隐私和安全多方计算将隐私数据和模型训练分离,可以在主要的深度学习框架中使用,例如 TensorFlow 和 PyTorch。PySyft 代表了在深度学习程序中启用可靠的隐私计算模型的首批尝试之一。PySyft 的核心组件是称为 SyftTensor 的抽象张量。SyftTenso
34、rs 旨在表示数据的状态或转换,并且可以链接在一起。链结构的头部始终有一个PyTorch 张量,并且使用子属性向下访问由 SyftTensor 体现的变换或状态,而使用父属性向上访问由 SyftTensor 体现的变换或状态。2MesaTEE MesaTEE 是百度于 2018 年 9 月对外发布。其基于英特尔 SGX技术,使用内存安全的 Rust 语言开发,旨在构建内存安全的可信计算平台,使得敏感数据即便在企业外环境和离岸场景下也能安全受控的流通和处理,而不会被泄漏或者滥用。MesaTEE 方案的特点有:第一,借助芯片级硬件的保护方案和混杂内存安全模型,解决各类非法攻击和内存安全问题,最大程
35、度保障数据机密 FATE 隐私计算开源框架金融行业技术应用报告 17 性与完整性。第二,基于分布式安全计算架构,性能相比传统密码学技术更快,在没有参与方限制的情况下,支持亿级数据计算。第三,操作灵活,内置多种常用机器学习算法和特征工程工具,以及标准的 Python 语言和 SQL 操作,通过可视化操作满足大部分场景的数据计算问题。第四,容器化部署方式,支持私有化、云端化以及安全一体机,且支持可信区块链以插件化方式链接。从应用角度看,首先,MesaTEE 结合区块链和云服务,适合在区块链和云计算的场景下提供通用安全计算应用。其次,使用MesaTEE完成的安全多方计算直接在保护环境中对明文进行计算
36、,计算成员和算法可以动态修改,具有更大的灵活性,且减少了通信开销,提高了效率和性能。再次,MesaTEE 原生提供了高安全等级的秘钥保护和加解密操作,可以提供类比传统 KeyVault 和HSM 的功能,安全地存储和控制对密钥/证书的访问。最后,MesaTEE 已经在所有安全级别(包括 Level5 的 IntelSGX)中支持了 GBDT,线性回归以及神经网络。主流的 AI 框架(例如Tensorflow,Caffe 等)生成的 CNN/RNN 模型都可以转换并加载到 MesaTEE 里,并且可以同时支持模型推理和训练。3FATE FATE(Federated AI Technology E
37、nabler)是联邦学习工业级框架开源项目,已在金融、医疗、零售等多个行业获得了广泛的应用。目前 FATE 开源社区已汇聚了 800 多家企业、350 余所高校等科研机构的开发者,是国内最大的联邦学习开源社区。FATE项目使用多方安全计算(MPC)以及同态加密(HE)技术构建底层安全计算协议,以此支持不同种类的机器学习的安全计算,包括逻辑回归、树算法、深度学习(人工神经网络)和迁移学习等。FATE 目前支持三种类型联邦学习算法:横向联邦学习、纵向联邦学习以及迁移学习。FATE 隐私计算开源框架金融行业技术应用报告 18 FATE 主仓库包含 FederatedML 核心联邦算法库和多方联邦建模
38、 Pipeline 调度模块 FATE-Flow,FATE 拥抱大数据生态圈,底层引擎支持使用 EggRoll 或者 Spark 进行高性能的计算。围绕FATE 联邦学习生态,FATE 还提供了完整的联邦学习生态链,如联邦可视化模块 FATE-Board、联邦在线推理模块 FATE-Serving、联邦多云管理 FATE-Cloud 等。4TensorFlow Federated TensorFlow Federated(TFF)是由谷歌公司开发的开源框架,用于对分散式数据进行机器学习和其他计算。TFF 提供的构建块也可用于实现非学习计算,例如对分散式数据进行聚合分析,主要特点是可以将现有 K
39、eras 或非 Keras 机器学习模型应用在TFF 框架中;可以执行基本任务,例如联合训练或者评估,而无需研究算法的细节;通过在强大类型的功能编程环境中将TensorFlow 与分布式通信运算符结合在一起,简洁地表达自定义联邦算法。借助 TFF,开发者能够以声明方式表达联合计算,从而将它们部署到不同的运行时环境中。5Fedlearner Fedlearner 是字节跳动于 2020 年开源的联邦学习平台。Fedlearner 系统包括控制台、训练器、数据处理、数据存储等模块,各方透过代理互相通信,实现训练。Fedlearner 强调联邦学习在推荐、广告等业务中的落地。针对流式数据的场景,除了
40、传统的 PSI 求交,Fedlearner 还提供了流式数据求交。Fedlearner实现了一个基于 GRPC 的通信协议,并以算子的形式集成到TensorFlow 中,支持横纵向的神经网络以及纵向树模型。在部署方 式 上,Fedlearner拥 抱 云 原 生,采 用 基 于Kubernetes+HDFS/MySQL/Elasticsearch的 解 决 方 案,由Kubernetes 管理集群和任务。FATE 隐私计算开源框架金融行业技术应用报告 19 字节跳动前期在推荐和广告领域积累了成熟的机器学习建模技术,为联邦学习提供了算法的支撑。除此之外,依托今日头条、抖音的数据优势,字节跳动拥有
41、 600T+的海量用户群体画像和超过 220 万用户标签。Fedlearner 也已经在电商、金融、教育等行业多个落地场景实际应用,例如帮助电商广告主取得了可观的投放效率增长,帮助教育客户广告跑量提升 124%。6PaddleFL PaddleFL 是百度基于飞桨(PaddlePaddle)开源的联邦学习框架。PaddleFL 支持横向联邦学习和纵向联邦学习。PaddleFL 提供了两种联邦学习策略:Data Parallel 以及 Federated Learning with MPC(PFM)。Data Parallel 主要针对横向联邦学习场景,分为编译阶段和运行阶段。编译阶段定义联邦学
42、习任务,各参与方可使用 FedAvg,DPSGD 等策略,运行阶段进行模型训练。PFM 则可以支持纵向联邦学习场景。基于 MPC 的联邦学习方案支持三方安全计算协议 ABY3 和两方计算协议 PrivC。与大多数开源联邦学习框架类似,PaddleFL 也支持并推荐 docker、Kubernetes 方式部署。7NVIDIA FLARE NVIDIA FLARE 是英伟达开源的用于协作计算的 PythonSDK,全称是联邦学习应用程序运行时环境(NVIDIA Federated Learning Application Runtime Environment),旨在支持各方之间的联邦学习,使用
43、其本地安全受保护数据进行客户端训练,同时它包括协调和交换所有站点的结果进展的功能,以实现更好的全局模型,同时保护数据隐私。NVIDIA FLARE 主要功能是帮助开发人员能够在真实场景中轻松执行联邦学习建模;NVIDIA FLARE 使用高可用性基础结构启动联合学习的系统功能,支持多任务执行,最大限度地提高工 FATE 隐私计算开源框架金融行业技术应用报告 20 作效率。NVIDIA FLARE 控制器和 Worker API 用于实现 NVIDIA FLARE 应用程序中定义的基于任务的交互。服务器配置可以定义用于累积客户端任务数据的聚合器、用于保存模型的持久化器以及用于交换数据的可共享对象
44、。NVIDIA FLARE 建立在灵活的、模块化的架构之上,并通过 API 进行抽象,允许开发人员和研究人员在联邦学习范式中实现自定义其功能学习组件。8Primihub Primihub 是原语科技于 2022 年 5 月底开源的隐私计算平台,主要应用于金融、政务、交易所、工业互联网、医疗等领域。Primihub 平台融合了 MPC(多方安全计算)、FL(联邦学习)、HE(同态加密)、TEE(可信执行环境)等多种技术路线,提供多安全级别、多性能要求、多场景支持的解决方案,帮助企业用户保护数据隐私的同时,深度连接各个合作方,实现跨数据、跨行业的合作共赢。Primihub 开源框架有以下特点:一是
45、融合了多种隐私计算主流技术和协议;二是具有高可用的分布式调度平台,管理平台主要功能涉及项目管理、模型管理、匿踪查询、隐私求交、资源管理和系统设置。用户通过简单的学习后,可以自定义配置机构、资源、项目等管理应用;三是有丰富的扩展接口;四是支持多种输入源。FATE 隐私计算开源框架金融行业技术应用报告 21 三、金融业隐私计算开源生态建设现状(一)(一)发展历程发展历程 随着金融机构对于开源价值的逐步认同,金融机构开始开展开源技术的使用及治理,越来越多的金融机构参与到开源治理及开源生态建设过程中。一是伴随着金融机构数字化转型的浪潮,金融机构对于开源技术拥有强烈的使用意向。二是金融机构开源软件的使用
46、量大幅提高。三是我国的金融机构稳步开始了开源技术治理工作,金融业开源治理组织已经形成。近年来,金融机构不断建立、完善开源治理体系,并逐步参与开源生态建设。例如中国工商银行,于 2020 年完成了开源评估体系内部建设,从开源引入、使用和退出建立全生命周期的管控能力,并开始逐步尝试对外开源。同时金融机构积极参与开源生态治理及建设,持续加大投入,促进了我国开源产业的蓬勃发展。在自主开源方面,金融机构在业务层面面临着较高的安全合规要求,而民营银行成为了开源技术探索的先锋。以微众银行为例,作为国内最早的一批对外开源的金融机构,由微众银行在2017 年牵头开源的金融级联盟链底层技术平台 FISCO BCO
47、S,就在业内获得了不俗反响。意见提出鼓励金融机构重视开源技术的应用和发展,积极参与国际国内开源技术社区建设,汲取先进技术,贡献中国智慧,培育适合金融场景的开源产业链,并加强对开源技术应用的组织管理和统筹协调。总体来看,金融行业参与开源社区建设,可以分为如下几个阶段:开源使用阶段、联合对外开源阶段、独立对外开源阶段。开源使用阶段:开源使用阶段:金融机构以使用者的身份参与到开源技术发展过程中。由于初期金融机构对于某一开源技术领域所涉及到的技术储备、知识产权、法务风险、运营模式等相对陌生,无法深 FATE 隐私计算开源框架金融行业技术应用报告 22 度参与到开源生态的共同建设中,但可以在持续使用开源
48、产品或技术的过程中,不断积累技术经验与管理经验。联合对外开源阶段联合对外开源阶段:金融机构以贡献者的身份参与到开源技术发展过程中。基于开源产品或技术在不同金融业务中的使用情况,以业务导向及场景积累为核心,并依托自身技术研发实力,通过贡献源代码等方式,联合开源方共同参与开源社区建设,进而与开源方协同完善开源技术体系。独立对外开源阶段独立对外开源阶段:金融机构以开源者的身份参与到开源技术发展过程中。往往适用于科技研发能力较强的头部金融机构,随着这些头部金融机构在某一开源技术领域的技术能力持续积累及开源社区治理经验的不断积累,逐渐具备独立设计开源产品及独立运营开源社区的能力,并以自身核心技术平台或产
49、品为核心,构建开源生态环境。(二)(二)路径及形式路径及形式 1金融业参与开源隐私计算现状金融业参与开源隐私计算现状 整体上,金融行业开源需求往往从新技术领域开始。以“隐私计算”技术为例,2020 年,隐私计算技术普及之初,由于数据隐私保护领域尚未探索出有效的商业运营模式,且大部分金融机构最初对于隐私计算技术并不熟悉,此时盲目投入隐私计算的自主研发会对金融机构造成巨大的资金压力及研发风险,同时由于隐私计算技术本身处于场景探索阶段,尚未形成规模化的市场结构,而闭源隐私计算技术研发初期投资回报率较低,因此,许多金融机构使用了开源隐私计算框架(如 FATE 联邦学习开源框架)进行隐私计算平台搭建。另
50、一方面,由于金融业务往往具备较大规模的数据体量和较多高并发的复杂场景,可以为数据流通、人工智能领域的相关技术提供丰富的技术实践环境,同时海量的数据流通场景本身存在着大量的数据隐私保护需求,因此反过来极 FATE 隐私计算开源框架金融行业技术应用报告 23 大带动了隐私计算开源技术发展。在技术发展方面,在技术发展方面,金融机构积极参与开源隐私计算技术。一方面金融机构基于场景需求自发选择开源产品的趋势愈发明显,另一方面具备科技研发能力的金融机构,正在逐步加入到开源项目贡献中来。金融是隐私计算场景实践的第一阵地,在不断的场景应用过程中,金融机构可以第一时间验证隐私计算技术环节中风险与缺陷,并通过独自
51、开发或上报反馈等形式,推动隐私计算技术发展。金融机构无论从技术研发层面,还是应用测试层面,都为开源隐私计算技术不断演进及生态融合贡献了宝贵力量。在标准建设方面在标准建设方面,金融行业数据流通参与方可以共同使用并验证统一的开源框架,最大化节省开发团队的人力及开发成本,并在反复的场景实践中探索出符合金融行业现状的行业规律,进而总结形成既满足技术要求、监管要求、合规要求,也需要符合市场要求,并具备促进行业融合的标准。金融行业正在持续推进隐私计算开源行业标准的不断完善,以联盟为代表的组织机构以开源、数据、人工智能等领域为出发点,积极推进相关行业标准的研制,是推动金融行业隐私计算平台互联互通的良好平台。
52、2金融行业参与开源隐私计算生态建设里程碑金融行业参与开源隐私计算生态建设里程碑 2019年2月,微众银行自研的联邦学习工业级开源框架FATE(Federated AI Technology Enabler)首次对外开源,为机器学习、深度学习、迁移学习算法提供高性能的安全计算支持,能有效解决如何在保护数据隐私的前提下实现跨机构 AI 协作的问题;6 月成立联邦学习开源社区 FATE 技术委员会(以下简称“FATE TSC”)对 FATE 社区进行开源治理,成员包含国内主要云计算和金融服务企业。同年,以光大科技为代表的金融机构基于FATEv0.1 开始探索联邦学习领域,并进行 POC 测试。202
53、0 年随着中国银联、建信金科、工商银行、光大科技以及 FATE 隐私计算开源框架金融行业技术应用报告 24 星云 Clustar 等机构加入 FATE TSC,各金融机构逐步开始了基于开源隐私计算技术的研究和应用。10 月,光大科技使用联邦学习和区块链技术,帮助证券机构联合外部数据源构建机构客户风险评级模型,实现隐私计算在智能风控领域的实践探索。12 月,建设银行利用隐私计算技术进行了集团一体化建模探索,参与联合建模的双方在生产环境中验证了隐私计算技术在金融产品智能营销场景的可行性;该项目被中国信息通信研究院和中国信息标准化协会大数据技术标准推进委员会认定为“隐私计算优秀案例”,获得“星河”奖
54、项。交通银行使用隐私计算框架 Avatar 和多方安全隐私计算框架 PrivPy,开展“基于多方安全知识图谱计算的中小微企业融资服务”项目,在确保原始数据不出域的基础上,将银行内部数据与外部数据融合,打破现有数据壁垒,准确识别企业集群背后的复杂关系链条及欺诈风险,提升银行整体的风控水平,在业内获得广泛影响力。同年,光大科技基于“可验证秘密共享技术”研发的“联邦学习平台多方安全求和算法”被 FATE 采纳,并分别于 7 月和 10月参与 CCFAI 方向及信用评分与信用评级国际会议发表专业报告,表明金融业在隐私计算领域已经开始了深入研究与实践。2021 年 3 月,FATE 社区牵头的首个联邦学
55、习国际标准IEEEP3652.1 Guide for Architectural Framework and Application of Federated Machine Learning发布;4 月,微众银行 AI 团队和富数科技隐私计算团队联手破解了不同联邦学习平台之间互联的技术难题,在行业内第一次实现了异构联邦学习平台的互通,初步验证了正在制定中的联邦学习技术互联互通技术标准的可行性。7 月,FATE TSC 发起成立互联互通工作组,初始成员包括来自工商银行、农业银行、建信金科、微众银行、光大科技、中国电信等 TSC 成员,旨在解决不同联邦学习平台间 FATE 隐私计算开源框架金融行
56、业技术应用报告 25 以安全便捷的方式实现互联互通,促进 FATE 与业界主流联邦学习产品的磨合应用,推动联邦学习步入开放通用阶段,共同打造联邦数据网络生态。工商银行、建设银行、光大银行、广发银行、中国银联等机构也在同年陆续完成自研隐私计算平台的建设与上线,标志着金融机构已初步具备在隐私计算平台方面的建设与运营能力。其中,上海浦东发展银行基于隐私计算开源框架 Rosetta 开发了数据多方安全计算应用系统,并联合其他金融机构进行“联合黑名单”、“匿踪查询”、“用户统一资产视图”、“联合营销”等创新场景的落地实施,验证了结合隐私计算技术、区块链技术和业务场景落地的可行性,并向更广阔的生态体系进行
57、隐私计算能力与场景的输出。2022 年,光大科技发起基于联邦框架的半监督学习训练范式,推动开源社区算法的创新孵化,并出版联邦学习原理与应用书籍。由工商银行牵头编写的联邦学习技术金融应用白皮书、多方安全计算金融应用现状及实施指引、隐私保护计算与合规应用研究报告、基于联盟链技术数据共享的应用研究报告等技术应用规范和研究报告相继发布;由中国银联牵头的两项课题金融行业异构隐私计算平台互联互通技术规范及隐私计算互联互通技术研究报告正式开展,金融机构开始进入对开源隐私计算技术管理体系的建设进程。(三)(三)痛点和需求痛点和需求 当前,金融机构在业务中使用开源隐私计算框架时,仍然存在着一些业务痛点,这些问题
58、不断促进隐私计算开源技术不断完善、持续发展。一是隐私计算开源技术成熟度方面仍然存一是隐私计算开源技术成熟度方面仍然存有有不足。不足。隐私计算 FATE 隐私计算开源框架金融行业技术应用报告 26 处于发展阶段,不同技术框架均在进行周期性的、持续性的版本迭代。各隐私计算科技厂商、开源社区、各大金融机构在隐私计算技术不断使用的过程中,不断积累与业务及场景相关的经验。隐私计算未来发展方向,除了提高稳定性、计算效率、通信效率以外,还要不断提升场景适配度,来满足不同业务场景下用户对于隐私计算平台的不同需求。此外,开源标准制定与安全可信评估过程,旨在向全流程安全合规对标,需要持续及时更新和完善,这是隐私计
59、算开源技术逐渐走向成熟的必经之路。二是隐私计算框架面临安全性与可用性(计算效率)的平衡二是隐私计算框架面临安全性与可用性(计算效率)的平衡性挑战。性挑战。根据隐私与模型性能的“No-free-lunch安全-收益恒定”定律,对于满足“贝叶斯隐私”的多方计算系统而言,都满足“安全+效能常数”这一“安全-效益恒定定律”5,即天下没有免费的午餐,想同时不泄露隐私和不降低模型性能是不可能的。如何找到既不会牺牲对数据的安全保护,也不会放任模型性能和计算效率大幅下降的平衡点,兼顾安全性与可用性,是隐私计算技术领域的共同挑战。开源框架有丰富的场景可用于验证安全与效率的平衡,且随着业务需求的发展、技术能力的进
60、步,开源框架本身也在不断迭代优化,因此,开源或可成为寻找隐私计算产品平衡点的最佳实践路径。三是开源存在知识产权风险。三是开源存在知识产权风险。开源知识产权风险问题相对隐蔽,在隐私计算开源领域,从技术角度来看,由于隐私计算的技术原理相对统一,且开源许可证的具体条款差异性难以甄别,权责界限不清,不易鉴别侵权、失权,这些因素都进一步导致隐私计算开源技术知识产权的保护难度增加。如何在遵循隐私计算开源协议的基础上,加强对于开源者的知识产权保护,也是行业待解决的重要问题。开源领域知识产权保护力度的提升与保护意识的普及,对我国开源软件产业的整体发展将起到积极促进作用。FATE 隐私计算开源框架金融行业技术应
61、用报告 27 四是四是当前当前隐私计算框架隐私计算框架暂时暂时无法有效解决金融机构内部数无法有效解决金融机构内部数据治理的复杂性据治理的复杂性问题问题。金融集团型企业广泛存在着业态多样、人员分散、管理流程和模式差异大的特点,集团企业内部的数据治理工作面临巨大的困难和挑战。各个子公司的主营业务相差巨大,行业细分的数据标准和规范各有特点、不尽相同,从而增加了不同企业间数据互联互通和共享创造价值的复杂度,数据多源异构现象普遍存在。(四)(四)隐私计算开源生态位全景图隐私计算开源生态位全景图 图 1 金融业隐私计算开源生态位全景图 金融业隐私计算开源生态,整体分为开源项目、开源社区、技术贡献方、行业推
62、动方、开源使用方等角色。总体来看,我国金融行业隐私计算开源产业初具规模,生态逐步完善。1、态势蓬勃,隐私计算开源社区稳步发展。、态势蓬勃,隐私计算开源社区稳步发展。从开源项目角度来看,当前我国各大互联网公司及头部科技公司,纷纷加入开源行列,积极打造开源生态。特别是在 2018 年以后,腾讯、微众银行、百度、阿里、京东、字节跳动等科技公司,陆续发布了隐私计算相关开源项目。在国际层面,Google、Facebook、IBM、Intel、NVIDIA 等科技公司,也发布了自己主导 FATE 隐私计算开源框架金融行业技术应用报告 28 的隐私计算相关开源项目,并在各自擅长的技术领域持续积累,快速进步。
华电国际电力股份-火电业绩将迎拐点估值仍具性价比-221110(31页).pdf
能科科技:智能制造使能军工科技数字孪生描绘工业未来20221109(34页).pdf
珀莱雅-深度复盘:拥抱变化、自我变革持续成长-221109(29页).pdf
社会服务行业:消费复苏若临什么值得配置?-221110(42页).pdf
拼多多-拼多多跨境电商Temu五问五答-221110(15页).pdf
奇安信:中标海外亿级订单凸显核心竞争力(4页).pdf
电气设备行业专题研究-复合铜箔:认证量产加速市场空间广阔20221108(16页).pdf
房地产行业华润有巢租赁住房REITs与题报告:房企保租房REIT首单体系化管理更具优势-221110(32页).pdf
纺服行业运动鞋制造商:成全品牌成就自我-221108(67页).pdf
房地产行业深度报告:民营房企融资近期有何突破?-221109(25页).pdf
电子行业深度报告:汽车电动化与智能化风头正劲车用PCB孕育新机20221108(20页).pdf
餐饮行业系列研究之茶饮专题:茶饮行业专题2蜜雪冰城开店的尽头在哪里?-221110(18页).pdf
Podfest China:2020中文播客听众与消费调研[50页].pdf
BAIN&COMPANY:2020年中国购物者报告系列一:快速消费品市场增长稳健新冠疫情引发购物者行为巨变[28页].pdf
2020年中国车路协同行业精品报告-200331[46页].pdf
昂利康-业绩低点已过特色制剂和原料药驱动公司未来三年净利润年复合增速预计不低于35%-20200725[20页].pdf
铂力特-航空航天3D打印领先者下游市场快速放量-20200726[29页].pdf
2020年中国FPGA芯片行业研究报告-200131[47页].pdf
2020年中国无线定位模组行业概览-20200724[34页].pdf
晨光生物-植物提取行业龙头未来成长可期-20200726[32页].pdf
春风动力-快乐春风启动引擎-20200723[40页].pdf
大北农-公司研究报告:转基因先发优势稳固养殖业务迎来新一轮创业浪潮-20200724[22页].pdf
电力设备行业:仓位上升电新板块又见风起-20200726[20页].pdf
电子行业半导体系列深度报告:刻蚀设备最优质半导体设备赛道技术政策需求多栖驱动-20200723[25页].pdf
北京金融科技产业联盟:隐私计算技术金融应用研究报告(150页).pdf
北京金融科技产业联盟:基于联盟链技术的隐私保护金融应用研究报告2022(81页).pdf
北京金融科技产业联盟:联邦学习技术金融应用白皮书(124页).pdf
北京金融科技产业联盟:金融机构开源软件应用情况调查报告(37页).pdf
北京金融科技产业联盟:人工智能技术金融应用情况调研报告(27页).pdf
北京金融科技产业联盟:人工智能金融应用发展报告(2020-2021)(275页).pdf
北京金融科技产业联盟:金融业数据应用发展报告(2021-2022)(218页).pdf
北京金融科技产业联盟:监管科技应用发展报告(2020-2021年)(181页).pdf
北京金融科技产业联盟:金融分布式数字身份技术研究报告(2021)(97页).pdf
北京金融科技产业联盟:2022金融行业全密态数据库研究报告(40页).pdf
线上健身第一股-keep招股说明书(463页).pdf
蜜雪冰城招股说明书-连锁茶饮第一股(724页).pdf
QuestMobile:2022年中国短视频直播电商发展洞察报告(30页).pdf
QuestMobile:2022新中产人群洞察报告(37页).pdf
麦肯锡:2023中国消费者报告:韧性时代(33页).pdf
町芒:2022现制茶饮行业研究报告(47页).pdf
罗振宇2023“时间的朋友”跨年演讲完整PDF.pdf
QuestMobile:2021新中产人群洞察报告(30页).pdf
锐仕方达&薪智:2022年薪酬白皮书(105页).pdf
美团:2022新餐饮行业研究报告(74页).pdf