当前位置:首页 > 报告详情

5-有赞-有赞支付团队SRE体系建设-山猫.pdf

上传人: li 编号:29826 2021-02-07 27页 63.50MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了有赞支付团队在建设站点可靠性工程(SRE)体系方面的实践和成果。SRE是Google提出的,旨在通过系统化的方法提高系统的稳定性、高可用性和持续迭代能力。文章详细阐述了有赞支付团队在稳定性指标上的提升:2018年故障数量10+,可用服务时间99.92%;2019年故障数量6,可用服务时间99.96%;2020年故障数量1,可用服务时间99.99%。文章提出了SRE建设的策略,包括根据资源投入和效果优先级进行规划,如将稳定性策略融入项目流程规范,对开发进行稳定性宣讲,推动配置系统的熔断/限流/降级等。同时,文章还介绍了有赞在故障注入测试、线上压测、渠道自动切换资损防控平台等方面的具体实践和效果,如通过资损防控系统将2019年资损金额降低至2018年的1/10,资损故障发现时间平均缩短80%。最后,文章强调SRE体系需要多个团队共同建设,测试团队最适合推动SRE体系建设,将稳定性策略融入到项目流程中,作为提测标准。
如何通过SRE体系建设提高系统稳定性? SRE实施中限流/降级/熔断如何防止服务雪崩效应? 加入有赞支付团队SRE建设,我能获得哪些成长机会?
客服
商务合作
小程序
服务号
折叠