《沈亚大促亿级流量下:京东H5应用的可观测性保障实践.pdf》由会员分享,可在线阅读,更多相关《沈亚大促亿级流量下:京东H5应用的可观测性保障实践.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、大促亿级流量下京东H5应用的可观测性保障实践沈 亚 京东资深技术专家l负责京东客户端及跨端技术的可观测平台建设与实践l主导设计并完成Hybrid/H5监控能力从0到1的落地l经历多次618,双11以及春晚核心活动亿级别流量的考验京东H5观测体系的背景及介绍深度探索主动观测自动化被动观测带来的降本提效全链路观测及质量保障的实践与思考京东H5观测体系背景及介绍移动端开发现状+=跨平台开发效率高更新迭代方便兼顾部分原生体验用户体验不如原生工程质量难以把控NativeH5Hybrid优势劣势H5观测的背景H5页面多业务团队广活动搭建率高H5业务特性这个活动打开太慢啦页面打开无内容!这个活动已经过期失效
2、了这个页面打开出错!线上用户反馈研发测试痛点不清楚业务性能现状,没有统一标准本地正常,线上偶现异常难以追踪想做技改优化,但是没发力方向线上用户体验问题不及时发现和处理,将会造成用户流失,单量减少业界现状l 与公司内部数据贴合性不够,数据安全性也不可控。l 定制功能实现复杂,需要修改探针源码等。现有商业化或开源监控方案自建监控平台l 没有体系化的指标以及衡量标准。l 覆盖不到全链路,缺少webview/接口/CDN资源等监控。l 对业务影响力较小,推动辅助不了一些优化工作。治标不治本痛点仍存在我们是如何解决的?方案价值场景全覆盖降本提效l打通搭建平台l自动化工具介入lWebviewlH5l接口/
3、CDN资源助力业务l快速排障l支撑技改优化l发布质量保障深入主动观测主动观测基建日志格式服务端架构日志服务端建设方案价值体现观测平台探针指标建设衡量标准质量保障H5探针-指标建设指标建设永远服务于度量标准统一度量标准提升综合性能评分降低事故异常率12采集标准中指标因子3H5探针-综合性能评分算法单指标评分算法综合评分标准根据不同场景,结合现状设置对应评分标准良好阈值较差阈值单指标分数实际数值总分权重单指标分值H5探针-评分标准指标讲解LCP-最大内容绘制最开始变动最终最开始变动最终更代表真实用户体验业界标准H5探针-质量保障保障探针发布标准及质量的前提下,选择权交给业务SOSO速度(speed
4、)可选择的(optional)稳定(stability)监控(observable)Tree ShakingHybrid 离线包工具方法抽离包大小管控发布流程标准化多重降级NPM包/CDN接入插拔式配置内部异常加载性能日志服务端-服务端架构关注点u高并发,服务稳定性qps,技术选型以及集群部署需要关注,尤其促期间,防服务被打穿。u存储端的设计与容灾数据量巨,尤其促期间会有翻倍的可能性,数据容灾需要保障u不同纬度查询统计需求异常数据要尽可能实时,满足不同时间,不同筛选粒度的聚合需求。日志服务端-sourcemap反解析本地/CICD打包业务研发自研Webpack/rollup打包插件上传Sour
5、cemap文件Nodejs反解析服务云存储OSS映射拉取对应版本Sourcemap文件进行反解析业务研发观测平台第1步第2步第3步第4步第5步请求吐回异常定位信息排障触发研发侧排障链路提效,避免手动上传Sourcemap文件日志服务端-异常告警分钟级阈值告警配置首次异常告警异常信息综合生成event id作为Redis Key计数event id 触发告警产品运营观念不够闭门造车:不深入贴合业务,不做工具平台打通独断专行:我定标准,只有我能做,你们都听我的。价值导向:重视接入率,忽视问题解决率问题为后期运营带来风险缺乏对研发的共情,造成不必要冲突,为后期维护埋下不信任种子缺乏长期优化动力没有核
6、心度量指标意识将在工具运行中后期缺乏优化动力和方向缺乏业务主人翁意识业务好坏和我无关,我只是观测,有了衡量标准,可以躺平了,业务自己摸索技改排障重功能,轻运营功能迭代更新随意,平台运营推广不充分,直接决定了工具的存亡观测平台-建设误区观测平台-正确思路贴合业务制定计划业务技改平台完善渐进式目标建设统一,自循环的可观测平台体系平台共同设定内部用户体验标准,建立指标体系前端委员会QA度量CMS工单告警目标深入业务,主动辅助,实现最终价值 接入率工单解决率推动技改落地数用户反馈观测平台-工单案例案例:用户反馈Plus页面加载慢,生成工单进行跟踪优化,提升用户体验。多用户反馈该页面加载慢,形成工单,追