1、 清华大学深圳国际研究生院知识工程研究中心 北京智谱华章科技有限公司 开放群岛开源社区 2023 联邦学习全球研究与应用趋势报告 I 主要发现 “中美双雄”引领全球联邦学习发展 中国和美国的联邦学习论文发布量遥遥领先于其他国家。六成以上高被引论文来自中美两国,中美两国论文合作数量也是全球最多;七成以上最佳论文来自中美两国。联邦学习全球高被引论文领先的机构是谷歌(11 篇)、卡内基梅隆大学(7 篇)。中国的高被引论文量较多的机构是北京邮电大学、香港科技大学、中山大学以及深圳市大数据研究院。最佳论文数量则是卡内基梅隆大学与香港科技大学各以 3 篇而并列第一。全球高被引论文作者主要聚集在中美,美国的
2、高被引论文作者数量是中国的 2.3 倍。全球专利受理数量以中国地区最多,约占全球受理总量的七成。专利申请数量前三名机构全部是中国机构。联邦学习的九成以上国家自然科学基金资助是青年科学基金项目和面上项目。开源框架主要来自中美,其中 OpenMined 推出的 Pysyft、FATE开源社区的 FATE 热度超过 4000,居于第一梯队;FedML.AI 的FedML、Adap 的 Flower、谷歌的 TFF 等框架的热度也较高,热度超过 2000,且 FATE 和 FedML 两个框架目前已推出 LLM 模块。未来联邦学习研究趋势将更多与算法模型和安全隐私技术相关 目前联邦学习研究热点主要聚焦
3、在机器学习方法、模型训练、隐私保护三方面。未来几年研究将更多涉及算法模型和安全隐私技术,如数据隐私、差分隐私、边缘计算、物联网、同态加密等。可信联邦学习成为重要趋势,联邦大模型技术、模型产权保护(IPR)、模型定价等正在初步探索。行业应用越来越成熟,应用研究方向呈现出更多与物联网、区块链、客户端、电子设备等融合的态势。II 目录 1.报告说明.1 1.1 数据范围.3 1.2 联邦学习知识树.3 2.引言.5 3.联邦学习技术研究与应用现状.10 3.1 技术研究现状.10 3.1.1 科研论文成果现状.10 1 论文发表量复合年增长率为 38.6%.10 2 论文发布量以中美两国为引领.11
4、 3 研究热点涵盖应用、系统和模型设计、安全隐私三个领域.12 3.1.2 高被引论文分析.20 1 六成以上高被引论文来自中美两国.20 2 美国的论文被引用量全球显著领先.21 3 谷歌拥有最多数量的高被引论文.23 4 联邦学习十大算法.23 5 高被引论文 TOP10 解读.25 6 中美两国论文合作数量全球最多.33 7 美英两国合作论文被引量全球领先.34 8 七成以上论文存在跨机构合作现象.35 9 物联网期刊是发布高被引论文最多的渠道.36 10 国际顶会相关论文收录量逐年增加.37 3.1.3 联邦学习的特刊、书籍和综述.38 1 特刊.38 2 书籍.41 3 综述.44
5、3.1.4 联邦学习研讨会最佳论文.47 1 七成以上最佳论文来自中美两国.47 2 卡内基梅隆和香港科大最佳论文量并列第一.48 3 FL-IJCAI 获奖作者人次以中国居首,FL-NeurIPS 则以美国领先.49 4 FL-ICML 系列最佳论文作者次数最多的机构是瑞士 EPFL 与韩国 KAIST III .52 5 FL-AAAI 系列最佳论文作者半数以上为华人.53 3.1.5 高被引论文作者的人才地图与画像.54 1 全球高被引论文作者主要聚集在美国和中国.54 2 美国高被引论文学者量是中国的两倍以上.55 3 谷歌是高被引论文学者量最多的机构.56 4 近三成高被引论文作者供
6、职于企业.57 5 不同研究方向的代表学者画像.58 3.1.6 专利申请现状.75 1 全球专利申请总体呈现上升趋势.75 2 全球专利受理情况以中国地区最多.76 3 中国是联邦学习技术第一大来源国.77 4 国内专利申请以北京、广东和浙江领先.77 5 两家金融机构专利申请量较为突出.78 6 专利技术创新点最多聚焦于客户端与区块链.79 7 专利申请最多布局在机器学习与数据存取访问平台保护两个 IPC 分类 80 8 引入新兴技术创新点的联邦学习专利已开始萌芽.82 3.1.7 国家自然科学基金项目资助分析.84 1 NSFC 相关资助项目数量与金额近年来明显增加.85 2 香港地区基