当前位置:首页 > 报告详情

2-酷家乐线下环境稳定性建设-酷家乐-肖昌奔(肖邦).pdf

上传人: 2*** 编号:135145 2023-07-09 35页 52.92MB

1、酷家乐线下环境稳定性建设实践肖昌奔(肖邦)在酷家乐担任过多个团队测试负责人,目前负责测试架构团队肖昌奔(肖邦)环境建设背景 线下环境标准化建设 线下环境稳定性建设 总结展望目录 基础建设 事前预防 事发应急 日常运营酷家乐网站架构 依赖关系错综复杂 服务粒度细化 线下多套环境 多层级 环状依赖 高度耦合酷家乐工具前端业务线下环境是整个产品研发周期中重要的基石对线下环境的认知01挑战困难随着业务的发展,服务数量持续性增长,线下测试环境的数量剧增,环境日常维护的难度也在上升,同时我们对线下测试环境稳定性的要求也上升到新的高度标准化建设010220182021稳定性建设2022今线下环境发展历程 环

2、境建设背景 线下环境标准化建设 线下环境稳定性建设 总结展望目录 基础建设 事前预防 事发应急 日常运营 链路依赖,单环境不稳定 新建一套环境非常复杂 测试无法并行,相互影响、相互阻塞 环境使用不规范早期存在的问题Stable环境:基线环境,全量的一套服务,且代码版本和线上保持一致,确保稳定Fe环境:功能/项目环境,基于基线构建的日常功能测试环境、项目测试环境,通过SOA进行请求路由Sit环境:集成测试环境,全量的一套服务,从功能/项目环境流转SOA路由环境流转标准化 环境流转结合测试流程环境流转标准化研发活动标准化长期存在的项目环境100+个线下环境pod10000+个每月创建临时环境160

3、0+个标准化建设成果 环境建设背景 线下环境标准化建设 线下环境稳定性建设 总结展望目录 基础建设 事前预防 事发应急 日常运营3个月时间测试环境挂了近30次稳定性建设契机问题剖析业务服务基础中间件硬件设施自建机房、硬件老旧、成本优先难自愈、影响广、数据丢失风险代码风险、配置低、监控混乱上万pod稳定性如何保障?线下环境稳定性治理整体思路 线下环境肯定会出问题 如何降低出问题的频率 出了问题如何快速恢复 如何不断完善形成长效机制readlinessProbe、startupProbe、livenessProbeProbe关键节点防单点核心服务和中间件至少两个podHPA基于服务实时状态进行动态

4、扩缩容迁移k8s包括业务服务、数据库全量迁移k8s01030204基于K8S的能力基础建设-自愈&高可用基线环境代码同步基础建设-同步&备份Ceph三磁盘备份核心链路巡检业务服务存活&soa检查基础中间件存活检查事前预防-巡检&存活检查日常预防手段,提前发现问题,提升自愈能力变更管控事前预防-变更管控&卡点&监控卡点监控前端一键批量回滚应急大盘分钟级全量服务重启事发应急事发应急-应急大盘范围:Api层、应用层、主机层、基础中间件层实时性:分钟级日常运营-长效机制日常运营-环境指标日常运营-环境指标稳定性治理效果 环境建设背景 线下环境标准化建设 线下环境稳定性建设 总结展望目录 基础建设 事前预防 事发应急 日常运营环境建设总结环境自愈展望个人微信号酷家乐技术质量公众号

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了酷家乐在线下环境稳定性建设方面的实践。作者肖昌奔,具有丰富的测试负责人经验,目前负责测试架构团队。文章首先阐述了线下环境标准化建设和稳定性建设的重要性,然后详细介绍了酷家乐的网站架构及其复杂性和依赖关系。面临的问题包括环境不稳定、使用不规范等。为此,酷家乐进行了线下环境发展历程的梳理,并提出了稳定性建设的策略,包括基础建设、事前预防、事发应急和日常运营。在实施过程中,通过readlinessProbe、startupProbe、livenessProbe等手段进行自愈和高可用性基础建设,同时进行了代码同步和备份,确保了核心链路的稳定。此外,还通过事前预防、变更管控和监控等措施,提升了自愈能力。在事发应急方面,通过应急大盘、分钟级全量服务重启等手段,实现了快速恢复。最后,作者对环境建设进行了总结,并展望了环境自愈的未来。
"酷家乐如何保障上万Pod的稳定性?" "线下环境稳定性建设中的事前预防措施有哪些?" "酷家乐如何实现环境自愈和高可用性?"
客服
商务合作
小程序
服务号
折叠