A3--黄焱--B站故障演练平台实践.pdf

编号:152043 PDF 41页 29.59MB 下载积分:VIP专享
下载报告请您先登录!

A3--黄焱--B站故障演练平台实践.pdf

1、B站故障演练平台实践焱资深测试开发程师焱主要负责哔哩哔哩性能测试平台、故障演练平台等,参与各个型活动(如:S赛、跨晚、拜年纪等)的稳定性保障作。负责常规压测、全链路压测、故障演练等在公司的落地实践。哔哩哔哩 资深测试开发程师嘉宾照录CONTENTS背景01 如何实现故障注02 如何实现爆炸半径的控制03 如何进依赖采集04 关于演练的动化05 01背景背景:混沌程&故障演练混沌程:套通过在分布式系统产环境上进实验,主动找出系统中脆弱环节的法学。背景:云原架构下,微服务数量爆炸式增,服务间调关系错综复杂,对系统可靠性提出更要求。发展历程:术:故障演练,种在混沌程思想指导下,通过故障注的式,寻找系

2、统问题的具体法。道:五原则(稳态假说、现实事件、产环境、持续运、爆炸半径)哔哩哔哩混沌程之路2019年:起步探索 基于 chaosblade 在容器环境下注故障,使得业务可以在线下 UAT 环境进故障注;2021年:优化设计 重新设计混沌实验平台,打通服务树和周边平台,增加了实验管理、场景实验等能,简化户操作;整体来说:断断续续的投。业务的接也参差不。直到。墨菲定律再上演痛定思痛:B 站混沌程分两个向开始推进:容灾演练:基础设施层的容灾演练,如多活架构。故障演练:业务层的故障演练,梳理强弱依赖。次匪夷所思的线上事故18:30:弹幕 OCR 服务(新服务,L2)上线20:12:稿件服务开始触发

3、OOM,部分节点开始重启(报警被淹没)20:19:稿件服务量 OOM,SLO 开始受损,量业务开始出现问题UGC 播放加载失败、视频法播放、WEB 出现空窗;天推荐降级数据标题出现繁体字;直播间粉丝勋章法加载、主播中图标不展示、是否可带货法判断OGV 剧集信息法拉取、TV UGC 内容法播放、收藏夹列表为空、播放历史为空、20:22:基础组件(SLB/APIGW)确认故障(组件类 SLO 平台,定位慢)20:25:发现量报警与稿件依赖有关20:28:多活切流失败(切流案平台化能、多活架构失效)20:37:弹幕 OCR 服务回滚,稿件服务重启后逐步恢复图1.匪夷所思的线上事故(Murphys L

4、aw:Anything that can go wrong will go wrong.)容灾失效依赖混乱业务层的故障演练需要解决的问题关键词:故障注 爆炸半径控制 依赖采集 演练的动化问题拆解:怎么创建故障?要演练哪些类型的故障?在线上环境做演练,怎么保证安全性?不同的业务场景,故障的标依赖项都有哪些?演练的成本如何降低?背景:希望贴近业务去做,细化到具体的业务依赖,梳理强弱依赖关系;尽可能在线上真实环境,演练核链路的故障场景;02如何实现故障注Golang 如何实现故障注代码模式法:AOP 思想,中间件模式 所有基础组件进改造,持中间件模式 故障演练 SDK,在应启动时注册故障演练中间件

5、平台推送故障演练实验信息给 SDK SDK 根据实验配置注故障问题:Java 有 JVM,但是Go 没有虚拟机,怎么实现 AOP 呢?备选案:动态法:通过反射找到运法的指针,动态插代码(如:gohook);(问题:多种限制、不建议于产)静态法 代码插法:基于抽象语法树(AST)做代码成;(问题:需要重新成代码,操作成本)代码模式法:相对安全、透明;(问题:基础组件需改造;优势:B站 Golang 研微服务框架 Kratos,可控程度)Server 类型故障注示例图2.HTTP Server 组件改造,持注册中间件 图3.HTTP Server 具体的故障为,超时、错误码等图1.HTTP Ser

6、ver 类型的故障注中间件2.故障演练中间件在应启动时注册到位3.Server 类型具体的故障因实现爆炸半径控制故障靶点匹配1.创建 Server 的时候,使全局注册的中间件 故障为注4.超时、错误码等Client 类型故障注示例图2.HTTP Client 组件改造,持注册中间件 图3.HTTP Client 具体的故障为,超时、错误码图1.HTTP Client 类型的故障注中间件2.注册Client 类型故障注ClientOpt 3.HTTP Client 类型具体的故障因实现 爆炸半径控制故障靶点注1.创建 Client 的时候,使全局注册的 _globalClientOpts 4.超

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(A3--黄焱--B站故障演练平台实践.pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠