1、MTSC2020中国互联网测试开发大会深圳站TESTING SUMMITCONFERENCE CHINA 20202020.11.20-21一中国深圳宝立方国际酒店主办方:TesterHeme#page#中国互联网测试开发大会。深圳站MTSCESTING SUMMIT CONFERENCE CHINA2020手淘AIOps实战-消息全链路智能监控阿里巴巴-董福铭(吾铭)、黄俊(豆豆)主办方:TesterHame#page#目录MTSC中国互联网测试开发大会手淘消息业务场景、系统架构手淘消息全链路稳定性保障异常检测在全链路体系实践经验Holmes异常检测平台未来展望Q&A主办方TesterHem
2、e#page#目录MTSC中国互联网测试开发大会必命医药生鲜食品承生灯9位限量立减400元电商消息业务场景场景:社交互动、客服沟通、交易提醒、优惠通知、品牌资讯推1亿店菜百忆礼目标:打造新零售业务商业连接,帮助消费者进消费决策主办方:TesterHame#page#电商消息业务场景MTSC中国互联网测试开发大会业务场景客户沟通粉丝互动LBS小区群私密群公共群消息号社交互动电商临时沟通商家群R2淘友聊天客服沟通淘友群淘客群平台通知帮买/代付分层运营亲情号线下导购分享回流家庭群村套群智能投放官方号游戏邀请小黑群LBS群群活动品牌号游戏互动专属客服轻店铺达人沟通战队群粉丝群群福利内容号业务特点场景多
3、规模大角色多即时性品牌号直播互动物流通知临市业务形态群聊消息号直播弹幕业务支撑天猫淘A淘多端同步多种场景0业务定制品序主办方:TesterHame#page#中国互联网测试开发大会消息链路面临问题MTSC淘观文件/多媒体客户端上行客户端下行零口3发送宝贝消息上屏客户端下行链路客户端上行链路IM系统分享卡片面临问题实现目标服务端日志无采样链路日志节点多应用内日志豪合增加服务端采样率标应用日志协议不统一前后端无统一采样规则日志协议统一按照链路采样系统监控日志零散前后端链路隔离系统监控基于全链路日志增加traceld串联链路到达率计算时效低消息通道链路不透明实时到达率计算数据挖据和分析主办方:Tes
4、terHeme#page#MTSC中国互联网测试开发大会全链路质量保障三者结合实现端到端的数据能力全链路日志方案实时监控+离线报表Ali-MetricTracing多维度聚合BLINK-实时计算ODLS-离线计算请求链路全链路平台Logging事件全链路排查SLS业务指标日志SDK系统指标采样率降级开关离线上报效果分析日志采集上报系统监控端计算全局Trace多维度聚合日志聚合日志采集日志协议全链路SDK日志接入层服务端链路日志客户端链路日志客户端UT埋点应用指标日志接入层(AOP/手动注入)接入应用APPSERVER主办方:TesterHeme#page#全链路排查MTSC中国互联网测试开发大
5、会打造手淘消息全链路智能监控排查系统,赋能消息及上层业务,实现业务指标实时监控、奥情智能分析、端到端全链路自动排查,有效缩短了线上问题从发现到定位的时间。提升排查效率达70%以上;日志量每天减少数百亿条;SLS存储资源和采集资源减少50%以上;累计服务9个APP;问题排查次数达162W;主方法开始前,主方法主线主为法结东后,根应用名称组86日志井打印主办方:TesterHame#page#MTSC中国互联网测试开发大会全链路监控传统监控-现状&痛点告警有效性低、监控疲劳传统规则通用性差海量告警及告警噪音,消耗大量人力指标复杂的周期性和模式变化的动态性误报/漏报排查效率低受季节性数据/噪声/抖动
6、数据的干扰业务系统链路长,排查问题需要多人协同主办方:TesterHeme#page#全链路监控MTSC中国互联网测试开发大会智能监控-特点&优势特点:0学习历史数据,分析当前指标曲线趋势是否异常。基于以往数据,进行预测未来指标走势。优势:o算法检测代替规则检测o告警准确率高o更早发现异常情况。可适应业务发展带来的趋势变化主办方:TesterHame#page#中国互联网测试开发大会异常检测架构MTSC我警策监控配置蜜命一指标注册数据源配置算法配置报警配置投管均表报警订间算法检测基于AI算法的异常检测平台-Holmes任务调度特征提取智能化、轻量级、易接入、可扩展A法异常检测算法替代传统的规则