1、GOP S 全 球 运 维 大 会 2019上 海 站GOP S 全 球 运 维 大 会 2019上 海 站立体化监控中人工智能场景落地GOP S 全 球 运 维 大 会 2019上 海 站目录自我介绍1痛点和现状2实践之路3场景落地4思考和展望5GOP S 全 球 运 维 大 会 2019上 海 站 互联网电商企业10余年平台监控开发经历 2014年4月加入京东,保障了移动端占比从20%到80%的规模 目前负责京东前端监控质量平台的开发,保障日常业务稳定支撑大促平稳渡过 曾经参与过腾讯电商业务监控系统,中间件监控系统开发自我介绍GOP S 全 球 运 维 大 会 2019上 海 站目录自我介
2、绍1痛点和现状2实践之路3场景落地4思考和展望5GOP S 全 球 运 维 大 会 2019上 海 站没有核心的痛点以及真实的需求需求缺乏真正会AI的人才以及配套设施资源体系内没有对AI正确的规划以及技术体系规划为什么不做和做不了AI?结合特定场(痛)景(点),通过海量数据的持续学习及算法优化,解决复杂问题得到更优决策创造价值。本质难点GOP S 全 球 运 维 大 会 2019上 海 站普遍的监控普遍的监控述求述求准确率、覆盖率、及时性需要亟待提高告警告警风暴、根因定位、及时止损提升诊断效率故障诊断重要性识别、容量规划、健康报告应用画像需求GOP S 全 球 运 维 大 会 2019上 海
3、站设备很贵且用且珍惜1、投入和产出是否匹配2、不被收割智商税机器资源GOP S 全 球 运 维 大 会 2019上 海 站大神资源招人成本高,人才竞争激烈技术门槛高大神很贵墨菲定律墨菲定律工程与算法分离算法理解,结合工程大神很挑GOP S 全 球 运 维 大 会 2019上 海 站基础设施脏话累坏我不干,谁爱干谁干有多少人工,就有多少智能打标平台是核心基础平台明确打标规则,减少模棱两可通过算法反补打标平台GOP S 全 球 运 维 大 会 2019上 海 站目录自我介绍1痛点和现状2实践之路3场景落地4思考和展望5GOP S 全 球 运 维 大 会 2019上 海 站用户反馈网络切换应用画像细
4、分维度的场景基础维度场景微观和宏观场景结合点面结合告警基线GOP S 全 球 运 维 大 会 2019上 海 站线上用户反馈发现故障并进行预警用户反馈基础组件收敛告警告警基线根据网络故障时进行自动切换网络监控为啥能成功?场景可以简单抽象,关联数据项并不多,长期有人肉操作成功组GOP S 全 球 运 维 大 会 2019上 海 站预期结果预期:通过对应用进行容量画像的计算,推动大促扩缩容工作快速开展结果:数据沉淀以及打通不够导致模型普适性有较大问题1、根据历年数据,人工进行预估,预估不足时多次压测,多次扩容,导致研发、测试、运维人力投入增加2、基于单一维度计算,简单的判断当前应用维度容量的使用情
5、况1、应用场景过于细化,模型普适性低,如:内存密集型,cpu密集型,带宽密集型等。2、临界值压测工具有所欠缺,底层数据沉淀不够关于数据格式化以及底层工具支持度任重道远失败组GOP S 全 球 运 维 大 会 2019上 海 站目录自我介绍1痛点和现状2实践之路3场景落地4思考和展望5GOP S 全 球 运 维 大 会 2019上 海 站由于整点秒杀、抢购业务特点,核心系统指标数据存在毛刺,不确定因素多,噪声较大基于历史数据,做加权平均计算,可的出得出相对准确的未来预测值,包括日常峰值毛刺和低谷值根据准确的预测值,设置较低的阈值,可以敏感的发现各类问题网络探测数据,客户端图片异常数据与订单,登录
6、分运营商数据进行多重比对共享告警阈值设定方案,对敏感网络较差地区网络告警进行有效收敛场景因为多地不同网络探测告警的特殊性,误告频繁,联合告警后网络告警误告率降低了80%图片CDN异常与网络一样有多地多维度特性,与核心指标关联后降低了90%的误告率数据策略效果基础告警组件:基线预测GOP S 全 球 运 维 大 会 2019上 海 站32个省*3大运营商+中小运营商+海外,质量各不同京东覆盖多地多机房的接入点运营商交割太磨人切换效率低下,场景固定网络监控:背景GOP S 全 球 运 维 大 会 2019上 海 站客户端测用户主动进行网络探测充分的数据准备各机房agent反向拨测用户ip客户端网络