《吴召军-腾讯游戏混沌工程实践(23页).pdf》由会员分享,可在线阅读,更多相关《吴召军-腾讯游戏混沌工程实践(23页).pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、全球敏捷运维峰会广州站腾讯游戏混沌工程实践吴召军全球敏捷运维峰会广州站目录什么是混沌工程混沌工程平台建设混沌工程实践案例全球敏捷运维峰会广州站什么是混沌工程主动在分布式系统上进行异常实验,观察系统行为,发现系统弱点与新知识,并持续优化和实验,不断提高系统容错能力,让人们建立复杂分布式系统能够抵御突发事件的信心。混沌工程的定义全球敏捷运维峰会广州站什么是混沌工程故障预防故障发现故障响应故障定位故障恢复复盘改进架构评估优化容量评估优化全链路压测监控覆优化应急预案优化日志工具就绪观测工具就绪应急演练到位专家风险把控故障容灾演练监控告警主动拨测用户反馈舆情监控定期巡检客服反馈测试发现运行预测AIOPS
2、告警触达应急协同故障影响评估预案启动客服周知故障公告故障同步告警分析日志分析链路分析监控分析运营数据分析变更分析诊断工具定位专家决策AIOPS进展同步容灾切换扩容升配服务重启版本发布配置变更限流、熔断降级应急预案隔离进展同步沙盘演练过程推理根因分析故障复现故障影响统计改进措施同类排查问题跟进故障总结同步混沌工程防患未然检测快(MTTD)响应快定位快恢复快(MTTR)复盘演练全球敏捷运维峰会广州站1)混沌体系能力提升2)定制计划评估风险3)实验执行结果反馈4)架构优化能力提升5)优化反馈提交验证混沌工程实践事件编排指标观测环境恢复实验报告架构优化版本迭代开发能力运维能力1)混沌体系能力提升根据业
3、务场景给混沌能力的反馈与要求,不断迭代建设Chaos体系。2)定制计划评估风险从业务实际场景出发,设计具体实验计划,包括实验目标、范围、故障,选取稳态观察指标,限定爆炸半径,控制风险。3)实验执行并反馈结果执行前检查事件编排,查看当前观测指标状态,确认无误后下发实验,实验过程中观测稳态指标表现,据此判断实验是否符合预期,实验结束后恢复环境,同时输出实验报告。4)架构优化与能力提升业务相关干系人(运维、开发、测试等人员)收到结果反馈后需对已存问题进行review、评估整改方案、修复计划并检查同类问题,最后进行系统升级。5)优化反馈并提交验证根据业务的优化反馈,再次提交实验请求,验证改进是否生效,
4、进入下一轮混沌实验环节。混沌工程平台建设全球敏捷运维峰会广州站混沌工程平台建设:流程设计实验前实验中实验后故障场景稳态指标实验编排故障注入故障观测实验防护故障恢复实验报告汇总分析问题跟进统计度量靶点管理全球敏捷运维峰会广州站混沌工程平台建设:故障原子存储计算资源网络节点/容器磁盘空间满IO高负载IO延迟IO错误文件句柄耗尽文件删除丢包、延迟乱序、重复带宽满限速端口耗尽DNS篡改关机X秒开机重启/销毁重建删pod杀容器杀pod应用杀进程进程僵死状态码错误Body篡改请求延迟访问量激增CPU负载高单核CPU负载高内存满应用内存满虚拟内存满GPU负载高自研CHAOS TOOL网关MESH开源CHAO
5、S TOOL自定义shell脚本Python脚本二进制包API插件开源工具接入全球敏捷运维峰会广州站混沌工程平台建设:容器故障注入https:/chaos-mesh.org/全球敏捷运维峰会广州站混沌工程平台建设:应用故障注入Control PlaneService-AGWService-BGWService-CGWService-1GWService-2GWService-3GWService-XGWService-YGWService-ZGW网关MESH:服务治理,链路跟踪。全球敏捷运维峰会广州站混沌工程平台建设:应用故障注入请求网关响应通用治理负载均衡服务发现健康检查熔断限流监控度量访问
6、日志应用治理登陆校验访问控制服务加密参数校验调用跟踪流量复制混沌工程状态码注入延迟注入Header注入Body注入带宽限制用户过滤全球敏捷运维峰会广州站混沌工程平台建设:应用故障注入应用层故障注入全球敏捷运维峰会广州站混沌工程平台建设:实验编排全球敏捷运维峰会广州站混沌工程平台建设:实验观测基础监控系统业务监控系统Prometheus全球敏捷运维峰会广州站混沌工程平台建设:实验报告数据记录问题分析跟进解决改进方案全球敏捷运维峰会广州站混沌工程平台建设:收益传统故障演练:混沌平台演练:编排实验执行实验观察实验功能齐全