《基于云的货拉拉技术稳定性保障实践-云上运维最佳实践论坛(23页).pdf》由会员分享,可在线阅读,更多相关《基于云的货拉拉技术稳定性保障实践-云上运维最佳实践论坛(23页).pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、基于云的货拉拉技术稳定性保障实践陈永庭货拉拉核心基础设施部负责人业务体量快速增长百万级订单技术栈0-1建设0-1技术团队规模增长45倍稳定性场景介绍Contents目录1货拉拉业务形态2基础架构治理3技术保障能力的建设4跨云的思考与实施货拉拉介绍About Huolala01供需不平衡、配对时效性同城货运、国际货运2013201720182019非计划单导致运力紧缺ToB定制化、千客千面企业版物流供需不平衡、运力不足跨城货运多种运力分布不均,整合难度大、运力不平衡搬家、零担业务例:这里是标题标题标题New Future on Cloud货拉拉业务发展业务形态技术规模带来的挑战需求交付与技术债治
2、理的平衡需要100%做到不影响业务发展短时期无法采取大规模的技术重构进行治理无法做到一刀切,需要逐步替换研发效率与技术保障的平衡研发技术需求的排期压力大技术栈未标准化导致技术方案不灵活技术标准、规范的缺失和跟不上规模要求用最快时间推出框架与规范,约束新应用的标准化优先解决稳定性兜底的中间件优先打造监控、告警、故障平台基础架构治理02简单、快速开发和交付业务应用采用PHP技术栈快速开发与交付,支撑业务早期的高速发展服务间采用HTTP协议通讯,基于域名+SLB、web构成了早期的技术架构业务服务链路不可靠关键服务与非关键服务不清晰,相互依赖、耦合部分core服务臃肿,一个服务几百个接口发布成功率、
3、发布验收?关于服务治理?排障效率低,应急恢复慢排障手段比较单一,基本上靠日志(kibana)来定位分析问题服务自愈能力弱,无法应对临时突增的峰值流量,服务容易陷入瘫痪货拉拉技术 v1.0SLBSLBSLBSLBSLBhttphttphttphttphttp服务化治理方案-泛服务化(v1.1)为什么要引入泛服务化架构?业务服务技术改造工作量小,无须要求全部业务改造可以快速覆盖全网、全链路服务如何向后架构兼容?引入最终态的服务化架构组件:注册服务、配置服务打通传统HTTP协议、数据与标准RPC之间的交互统一的服务化治理技术方案RPC服务WEBRPCWEBSLBRPChttphttphttphttp
4、/RPC服务化治理方案-跨技术栈(Java&PHP)服务化治理方案-跨技术栈(PHP proxy)流量调度架构-全链路灰度单IDC架构+单链路高可用基础架构演进方向单IDC架构+多链路多IDC架构+多链路货拉拉安全生产体系从0搭建:监控、容量、预案、演练与应急响应技术保障能力建设03货拉拉技术保障体系概貌海外业务NOCPMO产线运维DB客满产品运营前置建设故障发现故障响应故障止血故障复盘制度规范监控告警覆盖人员协同告警发现人肉盯盘自主上报现象同步拉群拉会响应上线起因定位情况同步快恢预案问题排查进度同步影响消除信息记录会议组织复盘主持改进跟踪信息补充根因分析改进输出话术安抚已有可优化应急响应中心
5、定位分析平台预案平台时光机.工具能力大监控平台(AI-Monitor)监控平台 Monitor短信风险预测电话飞书根因分析自动降噪自动升级自动分析HTTPTraceMetricLogSOADatabaseQueue应用指标中间件指标机器指标网络指标应用日志Nginx 日志K8s 日志云监控指标报警平台 浑天仪AI OPS触达定时巡检监控-稳定性风险预测历史均值周环比日环比业务趋势大促活动业务推广应用发布运维维护机器指标接口响应接口成功率应用异常网络数据云中间件数据云监控数据飞书电话报警触达短信初步结论扩容建议自动预案应急系统集成应急响应应用指标云平台变更信息业务特征历史趋势分析处理报警与应急巡检系统监控-根因自动分析业务异常应用异常云平台报警下钻到应用下钻到应用进一步分析下钻到上、下游应用进一步分析网络底层故障分类应用Exception上升SOA相关指标异常机器相关指标异常机器自身故障网络底层故障分析结论根因应用故障分类故障原因链路治理应用标准化监控完善专家经验技术改造选型数据、流量模型容量治理、演练全链路容量压测数据平台的技术保障多云场景下的效率、成本与稳定性设计跨云思考与实施04磨平多云的差异化云“抖动”的防范IT成本的治理措施货拉拉“云调度平台”的建设(进行中)THANKS!