1、G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站服务亿级用户:浙江移动运维大数据中台建设之路G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站目录运维数字化转型1运维大数据中台建设2AIOPS场景实践3总结与展望4G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站转型的必要性业务IT融合发展提升竞争力降本增效内在需求外在要求创新型国家建设进入冲刺期“互联网+”到“智能+”加快推进数字经济发展G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站浙江移动IT架构演进1s
2、t电信行业最早250+套应用系统50000+日均任务调度30000+1st电信行业最早30+核心系统4.5亿+次/日调用量Max 省级单位最大容器20172016201420132009开始研究云计算技术研究并推广数据库一体机研究并推广DCOS技术研究并推广微服务架构研究并试点AI2019完成核心系统全面容器化完成核心数据库去IE完成核心系统全面微服务化首批通过DevOps标准评估小型机全面下线,完成100%去I运维大数据中台G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站转型的挑战一降 单个网元稳定性下降二少 相比互联网巨头IT积累少 IT投入相对营收占比少三多 网元数量多
3、 技术栈多 应用系统多四变 基础架构动态调整 技术栈不断演进 应用持续迭代更新 组织人员变动故障处理时间飙升,运维人员生活品质下降。G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站转型布局工具转型组织转型理念转型123从竖井到分层自底向上到自顶向下场景驱动数据为壤算法赋能运营数字化能力中台化技能代码化组织敏捷化G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站理念变革更高更高的运维视野更快更快的整体效率更强更强的基础能力运营数字化构建AIOps为核心的数字化运营组织敏捷化技能研发化能力中台化工单执行处理转向自主研发传统竖井式转向专业化分层分散建设转向中台能力开
4、放G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站组织变革应用调度指挥中心ANOC应用连续性保障工程师SRE业务运营工程师BOE云平台连续性保障工程师 CRE云平台系统管理员 CSA云调度指挥中心CNOC通过非功能治理、入网管控、日常保障等各种手段保障业务连续性借助大数据分析稽核等各种手段保障业务准确性应用连续性问题及准确性问题发现、调度、跟踪平台连续性问题及准确性问题发现、调度、跟踪通过根因分析、自动化工具等手段快速处理故障通过入网管控、容灾演练、性能优化等各种手段保障系统不出故障分层治理,全局视角,多维技能,应急协同G O P S 全 球 运 维 大 会 2 0 1 9
5、上 海 站工具变革被动运维ITIL v.20/v3.0监控告警流程管理DevOps/SRE开源工具自动化操作运维知识图谱超越规则平台运维效率提升管理提升价值提升主动运维智能运维(AIOPS)VM指标日志AI事件操作事件告警DBAPPG O P S 全 球 运 维 大 会 2 0 1 9 上 海 站AIOPS不是万能钥匙112323AIOPS无算法,不智能期望算法人无人值守人机协同AIOPS仍处于初级阶段能抓老鼠就是好猫AIOPS的实施路径?G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站AIOPS实施路径:智能引入先转化,后收敛,再挖掘,终预测实施路径实践效果Augmenta
6、tion Intelligence OperationArtificalIntelligence OperationRuleOperationG O P S 全 球 运 维 大 会 2 0 1 9 上 海 站AIOPS实施路径:场景选择智能辅助决策增强人的能力智能决策处置代替人的能力简单复杂低频高频提升自动化降低人的投入规范化、流程化规范人的行为自愈管理性能优化简单故障管理监控告警chatops复杂故障管理智能变更故障报告高可用管理G O P S 全 球 运 维 大 会 2 0 1 9 上 海 站AIOPS实施路径:效果评估AIOPS质量场景五级标准人AILEVEL 0 LEVEL 1LEVE