《2019年大型电商网站SRE运维的挑战与思考.pdf》由会员分享,可在线阅读,更多相关《2019年大型电商网站SRE运维的挑战与思考.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、GOP S 全 球 运 维 大 会 2019上 海 站GOP S 全 球 运 维 大 会 2019上 海 站大型电商网站SRE运维挑战和思考GOP S 全 球 运 维 大 会 2019上 海 站目录电商网站业务特征对运维的挑战1SRE的日常2速度 Vs 稳定性3技术&流程建设4GOP S 全 球 运 维 大 会 2019上 海 站 容器化开始普及 成本压缩 更高的运维效率要求 运维不可控因素变多新的挑战容器化技术更快的迭代效率单位gmv成本压缩成本GOP S 全 球 运 维 大 会 2019上 海 站系统规模变更频率资源成本效率要求电商业务特征对运维的挑战GOP S 全 球 运 维 大 会 2
2、019上 海 站 系统复杂度上升 业务单元化拆分 复杂的开发团队 各种技术堆栈 独立的技术路线 集群节点膨胀 单个集群500到1k的规模规模变化?dbcachetomcatAppdbcache?dbcachetomcatAppdbcachenodejs后端Javagolang前端nodejsBI离线pythonjava0501001502002502017618201711112018161820181111应用集群规模app1app2GOP S 全 球 运 维 大 会 2019上 海 站单机房单机房HA多机房业务中台化多机房冗余单元化一致性设计业务解耦分布式设计业务演化GOP S 全 球 运
3、 维 大 会 2019上 海 站变更配置变动代码发布环境变更变更频率生产环境线上预发测试环境0246810Nginx应用数据库单位周期内的变更频率生产环境线上预发测试环境GOP S 全 球 运 维 大 会 2019上 海 站 线上问题修复/新特性引入 运营配置活动 业务维护 资源优化变更的原因每时每刻都会有变更GOP S 全 球 运 维 大 会 2019上 海 站运维发布运维负责所有业务的发布部分自主发布非核心应用开发自主发布全面自主发布所有业务均支持开发自主发布运维在发布中的角色变化赋能放权控制质量 教练角色 赋能 给予开发运维技能或者工具 放权 系统支持授权开发做运维操作 裁判角色 控制质
4、量 对变更结果进行判定和限制GOP S 全 球 运 维 大 会 2019上 海 站 服务器成本 优化集群资源利用率 机架成本 机架层面的成本整合 带宽成本 外网带宽成本资源成本带宽成本机架成本服务器成本GOP S 全 球 运 维 大 会 2019上 海 站 感知 监控感知异常带宽 监控感知集群资源 评估 容量规划 操作 发起资源扩缩容操作资源优化的挑战监控评估扩缩容GOP S 全 球 运 维 大 会 2019上 海 站 业务规模增长 加量不加人 变更生效时间缩短 单个变更的操作时间变短 自动化流程依赖运维效率要求05101520253035测试环境1.0测试环境2.0测试环境3.0nginx配
5、置生效(单位时间分钟)nginx配置生效GOP S 全 球 运 维 大 会 2019上 海 站 优势的典型代表 隔壁部门(前隔壁厂)他们的新需求迭代以小时计 新的特性和功能意味着新的商业优势 效能改进部门 设计更好的跨团队流程和技术架构效率=优势GOP S 全 球 运 维 大 会 2019上 海 站目录电商网站业务特征对运维的挑战1SRE的日常2速度 vs 稳定性3技术&流程建设4GOP S 全 球 运 维 大 会 2019上 海 站 资源优化 扩缩容 架构改进 双机房/单元化 技术 平台建设 运维赋能电商SRE的日常技术相关资源优化架构改进GOP S 全 球 运 维 大 会 2019上 海
6、站 集群的评估 容量 状态巡检 成本 控制集群扩缩容的规模 混布 容器化资源优化单机资源利用率总体的成本GOP S 全 球 运 维 大 会 2019上 海 站架构改进单元化多机房单机房 架构一直演化 前后端拆分 服务化 Service mesh 架构的目标 研发效率 稳定性 容量/性能GOP S 全 球 运 维 大 会 2019上 海 站 平台建设 方案设计评审 运维赋能 运维/架构方案设计 知识沉淀赋能技术相关IM+NLP+CMDB+服务ChatOps平台GOP S 全 球 运 维 大 会 2019上 海 站目录电商网站业务特征对运维的挑战1SRE的日