《GCOS去哪儿旅行混合云基建优化实践-v3.pdf》由会员分享,可在线阅读,更多相关《GCOS去哪儿旅行混合云基建优化实践-v3.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、邹晟 基础平台技术专家 GCOS 2023 全球云原生及开源峰会个人简介个人简介2017年加入去哪儿旅行,云原生 SIG 成员,主要负责 DevOps 平台的规划和实施、研发效能的提升,近期一直在做混合云的容器稳定性治理、根因分析、预案系统等工作邹晟邹晟基础平台技术专家基础平台技术专家 GCOS 2023 全球云原生及开源峰会1 13 32 24 4去哪儿旅行混合云背景与挑战单应用1000+pod发布优化实践混合云下的应用级容灾实践混合云下的可观测性优化实践03040102混合云背景与挑战 GCOS 2023 全球云原生及开源峰会混合云混合云背景背景010203 GCOS 2023 全球云原生
2、及开源峰会混合云混合云策略策略冷数据上云冷数据上云 动作动作:数据库备份、及部分数仓数据上 云长期备份 效果:效果:20+P本地存储释放,节省了成本业务混合上云业务混合上云 动作动作:业务优先 IDC 部署,超过 阈值自动弹公有云 效果:资源利用率提升到 60%60%,业务高峰无需人工扩容 动作:动作:完成1P数据上云,本地做灾备。包括 对象存储和镜像仓库等 效果:效果:稳定性 99.995%存储上云存储上云 GCOS 2023 全球云原生及开源峰会混合云混合云挑战挑战大应用发布效率大应用发布效率挑战:1000+pod 发布耗时1-2个小时 0101应用级容灾应用级容灾挑战:单机房挂掉应用如何
3、保障可用性0202挑战:故障期间如何降低处理时长0303可观测性实践可观测性实践03040102 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-数据数据分析分析发布总时长发布总时长=max(=max(单批次应用启动时长单批次应用启动时长)x)x 发布批次发布批次数数发布批次数发布批次数=pod =pod 总数总数/单批次最多单批次最多 pod pod变量应用启动时长批次数pod总数 应用启动加速 减少发布批次数 pod 纵向扩容降低pod总数 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-应用启动应用启动加速加速定义定义spring、tomcat
4、 初始化应用初始化应用启动应用预热应用上线测量测量各个阶段埋点统计时长评估评估spring、tomcat 初始化秒级,spring 初始化和 bean 数量有关应用初始化和启动 1min应用预热2-3min瓶颈主要在预热数据,这部分数据优化性价比不高动作动作无 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-减少发布批次减少发布批次数数定义定义动态评估系统容量水位确保服务稳定,包括mysql、redis 连接数、dubbo zk 连接等测量测量业务吞吐和延时服务的后端资源容量变化(mysql、rediis 等)评估评估mysql 大量并发授权批量写 user 权限表会导致
5、 db 有延时抖动业务指标延时增加,不能直接降低发布批次数动作动作减少并发授权 db 抖动:动态授权改为网段授权,不直接写 user表,通过token 获取账户信息 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-pod-pod 纵向扩容降低纵向扩容降低 pod pod 总数总数定义定义系统吞吐不变,通过提高实例规格来减少总的实例数,提高发布效率测量测量业务吞吐与延时不断优化调整线程池数量、gc 策略并关注系统和业务指标评估评估pod 资源改为16/32c,32/64/128/256G 大规格 pod 后,效果明显动作动作成本考虑,发布系统支持先缩后扩应用切换大规格 po
6、d 并计算资源比例 GCOS 2023 全球云原生及开源峰会大应用发布优化大应用发布优化-效果效果资源节省20%发布效率提升70%04010203 GCOS 2023 全球云原生及开源峰会应用级容灾应用级容灾私有云多机房部署默认应用对机房无感知,自动向多个集群调度分布公有云多AZ公有云 AZ 级别故障自动切换应用级容灾 GCOS 2023 全球云原生及开源峰会应用级容灾应用级容灾-部署部署架构架构0102添加简介0304 GCOS 2023 全球云原生及开源峰会可观测性实践可观测性实践-22-22年故障数据年故障数