《杨德华-安全生产治理核心要素:管理、运营案例解读.pdf》由会员分享,可在线阅读,更多相关《杨德华-安全生产治理核心要素:管理、运营案例解读.pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、安全生产治理核心要素:管理、运营实践案例解读杨德华 数列科技 联合创始人、解决方案负责人数列科技这家公司是干啥的?和大家有啥关系?快递物流运营商相关其他行业Takin开源社区用户2021年6月30日开源https:/ 数字化时代特点:快 市场剧烈变化 7x24小时的服务 更短的产品生命周期 更多的定制化服务 产品发布周期(TTM)更短 VUCA新产品、新业务玩法的创新速度成为企业增长的动力而云原生、微服务架构的引入,有助于提升企业创新速度201520193C数码每年上新1次每年上新2次以上美妆每半年-1年上新每月上一款旗舰新品个护18-24个月9个月家用电器2-3年发布一款新品每年两次新品迭代
2、服装服饰每季度或每半年每周-每个月都有新款天猫新品发布频率上新周期上新周期品牌品牌周期上新总数周期上新总数每日上新每季上新每周上新2次SHEIN周49196件Zaful周431件H&M秋季 1687件Zara年 12000件1.2 分布式、云原生架构的优缺点Pizza team研发测试产品运营设计优点缺点敏捷型产品团队:方便加人、分工碎片化发版,快速响应需求系统复杂链路长,一个按钮横跨了一个按钮横跨了50个团队个团队故障排查,涉及角色多,上下游协同效率不高1.3 系统一分钟不可用,对企业的影响估算Gartner:Downtime can cost small businesses$423 pe
3、r minute,whereas large organizations can lose over$9,000 per minute.企业企业损失损失影响影响天猫2012年双十一超卖数十亿元研发、测试、运维团队数百人排查问题;对商家的影响;某物流上市公司 2017年双十一,OMS崩溃2小时数亿元订单进不来,造成人员闲置,资源浪费目录:今天要分享什么内容?1.背景数字化时代特点、微服务架构优劣点、系统不可用对企业的影响2.安全生产两个实践案例的效果对比3.安全生产治理概念和要素理解4.安全生产总体治理框架、参考框架、落地步骤2.1 案例一:顺丰+Takin 2021双十一生产环境全链路压测效果
4、稳定性演练方式双十一前提前发现问题价值总结优化分类优化分类统计统计程序优化180配置优化110资源扩缩84问题总计374问题分类统计Java应用171MySQL26Redis16ES10Flink10TiDB6生产环境,同时发起40万QPS(流量引擎 4c6g的700+个pod)业务连续性保障双十一0故障374个具体问题驱动,高效组织、沟通、执行、反馈机制容量可信,平稳支撑2.5倍揽收件量,2.2倍派件量生产环境核心系统_330_个服务、6400个agent 运行8、9、10月持续3个月压测,大规模压测次数达20次2.2顺丰快递+Takin:生产环境全链路压测10Step 1:全链路全流量线上
5、压测Step 2:根据压力表现进行调优Step 3:分流与限流Step 4:容灾降级完善监控四步保障2.3顺丰、B企业 生产环境全链路压测效果对比050100150200250300350400对比情况AB对比项顺丰B差距组织管理运营方式自上而下,高层负责性能部门推动IT人员数量35001500同时压测系统56318.6倍同时被压服务数330566倍线上Agent个数(千)6.40.321.3倍同时发起的压测流量(万)400.2200倍双十一前发现的问题数374574.8倍大规模压测次数30310倍同样的生产环境全链路压测产品(Takin)同样的实施团队-数列科技2.4 顺丰、B企业的管理、组
6、织方式对比案例之顺丰,技术高管负责案例之B企业,性能部门负责目录:今天要分享什么内容?1.背景数字化时代特点、微服务架构优劣点、系统不可用对企业的影响2.安全生产两个实践案例的效果对比3.安全生产治理概念和要素理解4.安全生产总体治理框架、参考框架、落地步骤3.1数字化业务安全生产治理概念内涵理解狭义:单个组织内部在组织安全生产战略的指导下,为确保系统处于稳定性运行的状态,多个部门协作实施的一系列活动集合。建立组织安全生产治理团队制定相关制度规范标准构建安全生产技术体系建设安全生产人才梯队培养相关人员安全生产能力广义:全社会完善相关政策法规推动政策法规落地建设与实施标准体系研发并应用关键技术培