1、AI、大数据与数字经济开源技术论坛专场VMware-CTO办公室 云原生实验室 资深研究员彭麟(Layne Peng)2021年7月10日KubeFATE:云原生的联邦学习部署与运维平台2 2021 VMware,Inc.提纲1.什么联邦学习?联邦学习解决什么问题?2.FATE:工业级联邦学习开源开源平台;3.开源开源云原生联邦学习方案:a)KubeFATE:基于Kubernetes的联邦学习部署与运维平台b)FATE-Operator:Kubeflow子项目,基于KubeFATE3 2021 VMware,Inc.人工智能三大要素算法算力数据4 2021 VMware,Inc.数据的现状并不
2、理想算法算力数据数据孤岛数据分布不均5 2021 VMware,Inc.数据的现状并不理想算法算力数据数据孤岛数据分布不均 制造数据:GAN 利用公有(public)和开放(open)数据:迁移学习 私有数据方合作一起训练:联邦学习(Federated learning)6 2021 VMware,Inc.联邦学习概念出现(Source:Federated Learning:Collaborative Machine Learning without Centralized Training Data,Google AI Blog,2017)数据数据孤岛数据分布不均7 2021 VMware,
3、Inc.联邦学习的误解:无隐私保护(Source:Secure Collaborative Learning,2017)数据数据孤岛数据分布不均早期的研究报告、论文往往基于无隐私保护的联邦学习方案。8 2021 VMware,Inc.(安全&保护隐私的)联邦学习数据孤岛数据分布不均隐私法律法规数据安全。联邦学习(Federated learning)=(安全(安全&保护隐私的)保护隐私的)联邦学习数据9 2021 VMware,Inc.(安全&保护隐私的)联邦学习数据数据孤岛数据分布不均隐私法律法规数据安全。(Source:Practical Secure Aggregationfor Pri
4、vacy-Preserving Machine Learning,Keith Bonawitz et al,2017)10 2021 VMware,Inc.联邦学习的定义数据数据孤岛数据分布不均隐私法律法规数据安全。两个或更多的(子)组织共同训练模型组织间无数据交换加密模型在多方安全计算框架下共同训练:加密模型在多方安全计算框架下共同训练:同态加密共享密钥 不经意传输11 2021 VMware,Inc.联邦学习与传统的机器学习传统的机器学习传统的机器学习模型不动,数据动联邦学习联邦学习数据不动,模型动(Source:Federated Learning(Synthesis Lectures
5、on Artificial Intelligence and Machine Learning),Qiang yang,et al.)数据不动模型动,数据可用不可见12 2021 VMware,Inc.联邦学习是解决数据孤岛问题的一个可行方案13 2021 VMware,Inc.联邦学习是解决数据孤岛问题的一个可行方案14 2021 VMware,Inc.联邦学习的分类横向联邦学习/同构联邦学习纵向联邦学习/异构联邦学习特征特征数据孤岛情况 1:样例分散在不同的组织,单个组织样例不足以支持优质训练。数据孤岛情况 2:样本数据的特征分散在不同组织,单个组织有样本片面的理解,造成训练结果偏差。样本
6、分区的联邦学习(Source:https:/ 2021 VMware,Inc.横向联邦学习/同构联邦学习纵向联邦学习/异构联邦学习样本样本特征特征横向、纵向联邦学习的案例小微企业信用风险管理小微企业信用风险管理多元数据来源组合获得更准确的用户画像AUC增加了12%跨银行反洗钱应用跨银行反洗钱应用在符合法规情况下,组合各银行数据成大量实证案例(Source:https:/www.fedai.org/cases/utilization-of-fate-in-anti-money-laundering-through-multiple-banks/)加密模型推理查询计算推理值获得结果微众反洗钱平台下