1、I 中国信息通信研究院云计算与大数据研究所 人工智能关键技术和应用评测工业和信息化部重点实验室 2023年3月 人工智能研发运营体系人工智能研发运营体系(MLOpsMLOps)实践指南)实践指南 (20232023 年)年)版权声明版权声明 本指南版权属于本指南版权属于中国信息通信研究院、人工智能关键技中国信息通信研究院、人工智能关键技术和应用评测工业和信息化部重点实验室,并受法律保护。术和应用评测工业和信息化部重点实验室,并受法律保护。转载、摘编或利用其它方式使用本指南文字或者观点的,应转载、摘编或利用其它方式使用本指南文字或者观点的,应注明注明“来源:中国信息通信研究院、人工智能关键技术和
2、应用来源:中国信息通信研究院、人工智能关键技术和应用评测工业和信息化部重点实验室评测工业和信息化部重点实验室”。违反上述声明者,本院将。违反上述声明者,本院将追究其相关法律责任。追究其相关法律责任。前前 言言 随着国家新型基础设施建设发展战略(2020)、国家“十四五规划和 2035 年远景目标纲要”等系列政策的出台,人工智能(AI)发展迎来新一轮红利,科技革命和产业升级处于进行时。近年来,AI 工程化的研究热度持续提升,其目的是帮助组织在数智化转型过程中,更高效、大规模地利用 AI 创造业务价值。人工智能研发运营体系(MLOps)作为 AI 工程化重要组成部分,其核心思想是解决 AI 生产过
3、程中团队协作难、管理乱、交付周期长等问题,最终实现高质量、高效率、可持续的 AI 生产过程。MLOps 的发展呈现出逐渐成熟的态势,近几年国内外 MLOps 落地应用正持续快速推进,特别是在 IT、银行、电信等行业取得明显效果。与此同时,MLOps 行业应用成熟度不足,使得组织在制度规范的建立、流程的打通、工具链的建设等诸多环节面临困难。因此本指南旨在成为组织落地 MLOps 并赋能业务的“口袋书”,围绕机器学习全生命周期,为模型的持续构建、持续交付、持续运营等过程提供参考,推进组织的 MLOps 落地进程,提高组织 AI 生产质效。本指南由中国信通院云计算与大数据研究所、人工智能关键技术和应
4、用评测工业和信息化部重点实验室联合发布。本指南站在组织如何布局和落地 MLOps 的视角,以模型的高质量、可持续交付作为核心逻辑,系统性梳理 MLOps 概念内涵、发展过程、落地挑战等现状,并基于 MLOps 的理论研究和实践案例分析组织如何构建 MLOps 框架体系和关键能力,最后总结和展望其发展趋势。由于 AI 产业的快速变革,MLOps 落地应用持续深入,工具市场不断迭代,我们对 MLOps 的认识还有待继续深化,本指南可能仍存在不足之处,欢迎大家批评指正。目目 录录 一、MLOps 概述.1(一)AI 生产过程管理问题凸显.1(二)MLOps 概念与意义.2(三)MLOps 实施原则.
5、3 二、MLOps 发展现状与挑战.6(一)MLOps 发展过程.6(二)MLOps 落地挑战.11 三、MLOps 框架体系.13(一)机器学习项目生命周期.13(二)MLOps 流程架构.14(三)MLOps 相关角色.19 四、MLOps 关键能力与技术实践.22(一)数据处理.22(二)模型训练.25(三)构建集成.27(四)模型服务.30(五)运营监控.35(六)模型重训.38(七)实验管理.40(八)流水线管理.43(九)特征管理.45(十)模型管理.47(十一)仓库管理.50(十二)模型安全.53 五、MLOps 总结与展望.57(一)总结.57(二)展望.58 图图 目目 录录
6、 图 1 MLOps 示意图.2 图 2 MLOps 实施原则.4 图 3 机器学习技术债示意图.6 图 4 Gartner 数据科学和机器学习技术成熟曲线.8 图 5 MLOps 工具分类一览.9 图 6 机器学习项目生命周期示意图.13 图 7 基于 MLOps 框架的机器学习项目生命周期示意图.14 图 8 MLOps 流程架构示意图.14 图 9 MLOps 相关角色分工示意图.19 图 10 MLOps 关键能力示意图.22 图 11 广东移动的数据处理能力示意图.23 图 12 格物钛的数据处理能力示意图.24 图 13 云测数据的数据处理能力架构图.25 图 14 百度的模型训练